دسته‌بندی


توضیح تصویر

در این سوال شما باید اقدام به ساخت مدلی کنید که موضوع (برچسب) خبر‌هارا پیش‌بینی کند.

مجموعه داده🔗

مجموعه داده مورد نیاز برای این سوال را از این لینک دانلود کنید مجموعه داده آموزش دارای سه ستون زیر می‌باشد:

نام ستون توضیحات
title عنوان خبر
description متن خبر
tags موضوع خبر

هر سطر داخل مجموعه داده مربوط به یک خبر است و موضوع هر خبر نیز در ستون tags قرار داده شده است. این ستون دارای موضوعات مختلفی است اما پیش‌بینی مدل شما برای مجموعه داده آزمایش (test) باید یکی از موضوعات زیر باشد:

  • اجتماعی
  • اقتصادی
  • ایران_استانها
  • بین الملل
  • سیاسی
  • علمی_فرهنگی_ورزشی

در نتیجه ممکن است ستون هدف (tags) در مجموعه داده اولیه نیازمند تغییرات باشد. توجه داشته باشید که در این مرحله از مسابقه مجاز به برچسب گذاری اخبار حداکثر با یک دسته اصلی می‌باشید.

به عنوان مثال، اخبار مربوط به کرونا با توجه به موضوع، می توانند در دسته‌های زیر قرار بگیرند:

  • اجتماعی: قرنطینه‌ها در کشورهای مختلف‌
  • اقتصادی: مسائل مربوط به مشاغل کوچک و جبران خسارت برای کارآفرینان
  • علمی_فرهنگی_ورزشی: المپیک توکیو به دلیل همه گیری جا‌به‌جا شد..
  • علمی_فرهنگی_ورزشی: اخبار مربوط به علائم، نکاتی درباره سالم ماندن، جستجوی واکسن‌ها و غیره

صورت مسئله🔗

مدل شما باید برای هر خبر (سطر) از مجموعه داده آزمایش، پیش‌بینی کند که محتوای آن خبر در کدام یک از ۶ دسته اصلی مذکور قرار میگیرد. در مرحله بعد باید بر اساس جدول زیر، رشته‌های بدست آمده را encode کرده و جواب نهایی را بر اساس مقادیر عددی ارسال کنید

موضوع مقدار عددی
اجتماعی 0
اقتصادی 1
ایران_استانها 2
بین الملل 3
سیاسی 4
علمی_فرهنگی_ورزشی 5

ارزیابی🔗

برای ارزیابی مدل شما از معیار ‍‍F1 Score استفاده می‌شود و مدل میانگین‌گیری نیز به صورت Weighted است.

توجه

در طول مسابقه امتیازی که مشاهده می‌کنید، فقط نتیجه‌ی F1 Score روی ۳۰ درصد از فایلی است که برای کوئرا آپلود می‌کنید. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه می‌شود.

این کار به منظور جلوگیری از overfitting و حفظ عمومیت مدل انجام می‌شود تا مطمئن شویم مدل‌هایی که دچار بیش‌برازش شده‌اند، در امتیازهی نهایی، افت می‌کنند.

خروجی🔗

پیش‌بینی‌های مدل خود بر روی مجموعه داده آزمایش (‍‍test_data.csv) را در فایلی با نام submission.csv قرار دهید. این فایل باید دارای یک ستون با نام prediction باشد که ردیف i ام آن، دسته پیش‌بینی شده برای خبر ردیف i ام از مجموعه داده آزمایش باشد (دقت کنید که ستون باید حتما دارای header باشد). بعد از آماده‌سازی فایل submission.csv، آن را برای ما بارگذاری کنید.

prediction
0
1
2
3
4
5
نکات مهم در مورد فایل ارسالی
  • توجه ۱: توجه کنید که ستون گفته شده حتما دارای header باشد.
  • توجه ۲: مراقب باشید در فایل نهایی اندیس ذخیره نشود و فقط یک ستون prediction باشد.
هشدار

فراموش نکنید که قبل از پایان زمان مسابقه، باید تمامی کد‌های این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این‌صورت، شما از این مسابقه، امتیازی کسب نمی‌کنید.

توجه داشته باشید که اگر از jupter notebook استفاده می‌کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py را دریافت و برای ارسال در نظر بگیرید. ارسال فایل‌های jupyter همانند ‍‍.ipynb مورد قبول نیستند.