اگر علاقهمند به تحلیل داده و فوتبال باهم هستید، این مسابقه میتواند چالش خیلی خوبی برای شما باشد.
برای مطالعه قوانین شرکت در مسابقه به اینجا مراجعه کنید.
در زمان مسابقه میتوانید سوالهای خود را از قسمت "سوال بپرسید" مطرح کنید.
همچنین پیش از پایان مسابقه، کد سوالات خود را در بخش "بارگذاری کد سوالات" قرار دهید.
یک هفته بعد از پایان مسابقه و داوری سوالهای نقل و انتقالات و نیمکت توسط هیئت داوران، نفرات برتر از طریق بلاگ کوئرا اعلام و جوابهای افراد برتر جهت نشر دانش با شما از آن طریق به اشتراک گذاشته خواهد شد.
یک ساعت پس از اتمام مسابقه، وبینار آموزشی برگزار خواهد شد که ابتدا آمار مسابقه را بررسی میکنیم و در ادامه راه حل سوالات را خواهیم دید. برای شرکت در وبینار، به صورت کاربر مهمان از طریق لینک زیر اقدام به ورود کنید: https://vc.sharif.edu/ch/quera
بعد از آشنایی اولیه با مجموعه دادگان مرحله قبل، شما میخواهید اقدام به ساختن مدل احتمال گُل (ارزیابی موقعیت شوت) با استفاده از دادگان آموزش (train.csv
) بکنید. این مدل بایستی با دریافت مشخصات مربوط به شوت (توضیح داده شده در گام قبل) به عنوان ورودی، احتمال گُل شدن (عددی بین صفر و یک) آن را به عنوان خروجی برگرداند.
به عنوان مثال، شما فکر میکنید مُدل شما احتمال گُل شدن صحنه زیر را چند درصد اعلام می کند؟
با توجه به این که شما، به دنبال ساخت یک مُدل مستقل از بازیکن و بازی هستید، در دادگان آزمایش (test.csv
) به ستونهای playerId
و matchId
دسترسی ندارید. همچنین در نظر داشته باشید که در این مرحله، گُل به خودی به عنوان خروجی گُل برای شوت در نظر گرفته میشود.
دادگان این گام، همان دادگان آموزش و آزمایش (train.csv
و test.csv
) سوال شغل جدید هستند.
برای ارزیابی مُدل شما از سطح زیر ناحیه نمودار ROC استفاده میشود. برای مطالعه بیشتر در مورد این نمودار میتوانید ویکیپدیا یا راهنمای کوتاه نکات و ترفندهای یادگیری ماشین را مطالعه کنید.
نتیجه AUC ROC مُدل شما بر روی دادگان آزمایش در عدد ۱۰۰۰ ضرب شده و به عنوان امتیاز این مرحله در نظر گرفته میشود (بالاترین امتیاز ممکن از این مرحله ۱۰۰۰ میباشد).
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test
) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات از ۱۰۰ درصد دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit
) روی دادگان آزمایش انجام میشود.
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید. این فایل باید دارای یک ستون با نام prediction
باشد که ردیف i ام آن پیشبینی شما (احتمال گُلشدن - عددی بین صفر و یک) برای شوت ردیف i ام از دادگان آزمایش باشد (دقت کنید که ستون باید حتما دارای header
باشد). بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
انتظار میرود افرادی که دارای توانایی آشنایی با حوزه جدید و مسلط به پیشپردازش، feature engineering و اصول اولیه یادگیریماشین هستند، بتوانند این سوال را حل کنند.