اگر علاقه‌مند به تحلیل داده و فوتبال باهم هستید، این مسابقه می‌تواند چالش خیلی خوبی برای شما باشد.

برای مطالعه قوانین شرکت در مسابقه به اینجا مراجعه کنید.

در زمان مسابقه می‌توانید سوال‌های خود را از قسمت "سوال بپرسید" مطرح کنید.

همچنین پیش از پایان مسابقه، کد سوالات خود را در بخش "بارگذاری کد سوالات" قرار دهید.

یک هفته بعد از پایان مسابقه و داوری سوال‌های نقل‌ و انتقالات و نیمکت توسط هیئت داوران، نفرات برتر از طریق بلاگ کوئرا اعلام و جواب‌های افراد برتر جهت نشر دانش با شما از آن طریق به اشتراک گذاشته خواهد شد.

یک ساعت پس از اتمام مسابقه، وبینار آموزشی برگزار خواهد شد که ابتدا آمار مسابقه را بررسی می‌کنیم و در ادامه راه حل سوالات را خواهیم دید. برای شرکت در وبینار، به صورت کاربر مهمان از طریق لینک زیر اقدام به ورود کنید: https://vc.sharif.edu/ch/quera

احتمال گُل


بعد از آشنایی اولیه با مجموعه دادگان مرحله قبل، شما می‌خواهید اقدام به ساختن مدل احتمال گُل (ارزیابی موقعیت شوت) با استفاده از دادگان آموزش (train.csv) بکنید. این مدل بایستی با دریافت مشخصات مربوط به شوت (توضیح داده شده در گام قبل) به عنوان ورودی، احتمال گُل شدن (عددی بین صفر و یک) آن را به عنوان خروجی برگرداند.

توضیح تصویر

به عنوان مثال، شما فکر می‌کنید مُدل شما احتمال گُل شدن صحنه زیر را چند درصد اعلام می کند؟

توضیح تصویر

با توجه به این که شما، به دنبال ساخت یک مُدل مستقل از ‌بازیکن و بازی هستید، در دادگان آزمایش (test.csv) به ستون‌های playerId‍‍‍ و matchId دسترسی ندارید. همچنین در نظر داشته باشید که در این مرحله، گُل ‌به ‌خودی به عنوان خروجی گُل برای شوت در نظر گرفته می‌شود.

دادگان🔗

دادگان این گام، همان دادگان آموزش و آزمایش (train.csvو test.csv) سوال شغل جدید هستند.

ارزیابی🔗

برای ارزیابی مُدل شما از سطح زیر ناحیه نمودار ROC استفاده می‌شود. برای مطالعه بیشتر در مورد این نمودار می‌توانید ویکی‌پدیا یا راهنمای کوتاه نکات و ترفندهای یادگیری ماشین را مطالعه کنید.

نتیجه AUC ROC مُدل شما بر روی دادگان آزمایش در عدد ۱۰۰۰ ضرب شده و به عنوان امتیاز این مرحله در نظر گرفته می‌شود (بالاترین امتیاز ممکن از این مرحله ۱۰۰۰ می‌باشد).

داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test) خواهد بود. پس از اتمام مسابقه، برای به‌روزرسانی نهایی جدول امتیازات از ۱۰۰ درصد دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیش‌برازش (overfit‍‍‍) روی دادگان آزمایش انجام می‌شود.

خروجی🔗

پیش‌بینی‌های مدل خود بر روی دادگان آزمایش (‍‍test.csv) را در فایلی با نام output.csv قرار دهید. این فایل باید دارای یک ستون با نام prediction باشد که ردیف i ام آن پیش‌بینی شما (احتمال گُل‌شدن - عددی بین صفر و یک) برای شوت ردیف i ام از دادگان آزمایش باشد (دقت کنید که ستون باید حتما دارای header باشد). بعد از آماده‌سازی فایل output.csv، آن را برای ما بارگذاری کنید.

توجه

انتظار می‌رود افرادی که دارای توانایی آشنایی با حوزه جدید و مسلط به پیش‌پردازش، feature engineering و اصول اولیه یادگیری‌ماشین هستند، بتوانند این سوال را حل کنند.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.