مسابقه حضوری ۳ آذر حذف شده و این مسابقه تعیینکنندهی رتبه و جایزهی شما است. اطلاعات بیشتر را میتوانید در اینجا کسب کنید.
لینکهای مفید برای شرکت در مسابقه:
در طول مسابقه، میتوانید سؤالات خود را از قسمت «سؤال بپرسید» مطرح کنید.
علی یک پسر بسیار تلاشگر و با استعداد است که به تازگی فارغ التحصیل شده و به دنبال شغلی مطابق با رشته تحصیلی خود میگردد. او وقت زیادی صرف جمع آوری اطلاعات شرکت ها کرده است و از آنجا که خیلی وسواس دارد. میخواهد جزییات بیشتری در مورد شرکت ها بدست بیاورد تا بدون دغدغه برای کار در شرکت مورد نظر خود اقدام کند. او با توجه به اطلاعاتی که جمع آوری کرده است، از شما به عنوان یک دانشمند داده میخواهد صنایع وابسته (Sub-Industry) به هر شرکت را پیشبینی کنید.
مجموعه داده سوال را میتوانید از این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید. پوشه companies
را میبینید. در صورتی که وارد این پوشه شوید، فایل آموزش (train.csv
) و آزمایش (test.csv
) را مشاهده میکنید. فایل آموزش، دارای ساختار زیر است:
نام ستون | توضیحات ستون |
---|---|
Ticker | مخفف نام شرکت |
Company Name | نام شرکت |
Sector | بخش |
Industry Group | گروه صنایع |
Industry | صنایع |
Description | توضیحات |
Sub-Industry | صنایع وابسته |
تنها تفاوت مجموعه داده آموزش با آزمایش در این است که مجموعه داده آزمایش، ستونSub-Industry
را ندارند.
با استفاده از مجموعه داده آموزش، یک مُدل برای پیشبینی صنایع وابسته (ستون Sub-Industry
) هر شرکت آموزش دهید. بدین صورت علی میتواند راحتتر به شغل رویایی و ایدهآل خود برسد 😎😍
برای ارزیابی پاسخ شما از معیار F1 استفاده خواهد شد. این معیار به صورت زیر تعریف میشود: ولی به دلیل اینکه ستون پیشبینی دارای بیش از ۲ کلاس است ما از معیاری به نام Weighted F1 استفاده میکنیم که F1 میانگین وزنی کلاس ها را محاسبه میکند. برای مطالعه بیشتر در مورد این معیار میتوانید به این منبع مراجعه کنید.
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از مجموعه داده آزمایش (test ) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، از ۱۰۰ درصد مجموعه داده آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit ) روی مجموعه داده آزمایش انجام میشود. |
---|
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید.
این فایل باید دارای یک ستون به اسم Sub-Industry
باشد.(بزرگ و کوچک بودن حروف نام ستون رعایت شود) که ردیف i ام هر ستون، پیشبینی شما برای نظر ردیف i ام از فایل test.csv
باشد. بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
output.csv
(فقط چهار خط اول به همراه نام ستون)🔗حتما فایل output.csv
باید دارای 944 سطر (بدون در نظر گرفتن header
) و یک ستون باشد.
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.