مسابقه حضوری ۳ آذر حذف شده و این مسابقه تعیین‌کننده‌ی رتبه و جایزه‌ی شما است. اطلاعات بیشتر را می‌توانید در این‌جا کسب کنید.

لینک‌های مفید برای شرکت در مسابقه:

در طول مسابقه، می‌توانید سؤالات خود را از قسمت «سؤال بپرسید» مطرح کنید.

شرکت‌های جهانی


توضیح تصویر

علی یک پسر بسیار تلاشگر و با استعداد است که به تازگی فارغ التحصیل شده و به دنبال شغلی مطابق با رشته تحصیلی خود میگردد. او وقت زیادی صرف جمع آوری اطلاعات شرکت ها کرده است و از آنجا که خیلی وسواس دارد. میخواهد جزییات بیشتری در مورد شرکت ها بدست بیاورد تا بدون دغدغه برای کار در شرکت مورد نظر خود اقدام کند. او با توجه به اطلاعاتی که جمع آوری کرده است، از شما به عنوان یک دانشمند داده میخواهد صنایع وابسته (Sub-Industry) به هر شرکت را پیشبینی کنید.

مجموعه داده🔗

مجموعه داده سوال را می‌توانید از این لینک دانلود کنید.

هنگامی که این فایل را از حالت فشرده خارج کنید. پوشه companies را می‌بینید. در صورتی که وارد این پوشه شوید، فایل آموزش (train.csv) و آزمایش (test.csv) را مشاهده می‌کنید. فایل آموزش، دارای ساختار زیر است:

نام ستون توضیحات ستون
Ticker مخفف نام شرکت
Company Name نام شرکت
Sector بخش
Industry Group گروه صنایع
Industry صنایع
Description توضیحات
Sub-Industry صنایع وابسته

تنها تفاوت مجموعه داده آموزش با آزمایش در این است که مجموعه داده آزمایش، ستونSub-Industry را ندارند.

صورت مسئله🔗

با استفاده از مجموعه داده آموزش، یک مُدل برای پیشبینی صنایع وابسته (ستون Sub-Industry) هر شرکت آموزش دهید. بدین صورت علی می‌تواند راحت‌تر به شغل رویایی و ایده‌آل خود برسد 😎😍

ارزیابی🔗

برای ارزیابی پاسخ شما از معیار F1 استفاده خواهد شد. این معیار به صورت زیر تعریف می‌شود: F1=2×precision×recallprecision+recallF_1 = 2 \times \frac{precision \times recall}{precision + recall} ولی به دلیل اینکه ستون پیشبینی دارای بیش از ۲ کلاس است ما از معیاری به نام Weighted F1 استفاده میکنیم که F1 میانگین وزنی کلاس ها را محاسبه میکند. برای مطالعه بیشتر در مورد این معیار می‌توانید به این منبع مراجعه کنید.

داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از مجموعه داده آزمایش (test) خواهد بود. پس از اتمام مسابقه، برای به‌روزرسانی نهایی جدول امتیازات، از ۱۰۰ درصد مجموعه داده آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیش‌برازش (overfit‍‍‍) روی مجموعه داده آزمایش انجام می‌شود.

خروجی🔗

پیش‌بینی‌های مدل خود بر روی دادگان آزمایش (‍‍test.csv) را در فایلی با نام output.csv قرار دهید. این فایل باید دارای یک ستون به اسم Sub-Industry باشد.(بزرگ و کوچک بودن حروف نام ستون رعایت شود) که ردیف i ام هر ستون، پیش‌بینی شما برای نظر ردیف i ام از فایل test.csv باشد. بعد از آماده‌سازی فایل output.csv، آن را برای ما بارگذاری کنید.

نمونه خروجی فایل output.csv (فقط چهار خط اول به همراه نام ستون)🔗

Sub-Industry 
Department Stores        
Communications Equipment 
Biotechnology
Health Care Equipment
Plain text
توجه

حتما فایل output.csv باید دارای 944 سطر (بدون در نظر گرفتن header) و یک ستون باشد.

هشدار 😱

فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کد‌های این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی ‌کنید.

توجه داشته باشید که اگر از jupter notebook استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py را دریافت و برای ارسال در نظر بگیرید. ارسال فایل‌های jupyter همانند ‍‍.ipynb مورد قبول واقع نخواهند شد.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.