در این سوال شما باید اقدام به ساخت مدلی کنید که موضوع (برچسب) خبرهارا پیشبینی کند.
مجموعه داده مورد نیاز برای این سوال را از این لینک دانلود کنید مجموعه داده آموزش دارای سه ستون زیر میباشد:
نام ستون | توضیحات |
---|---|
title | عنوان خبر |
description | متن خبر |
tags | موضوع خبر |
هر سطر داخل مجموعه داده مربوط به یک خبر است و موضوع هر خبر نیز در ستون tags قرار داده شده است. این ستون دارای موضوعات مختلفی است اما پیشبینی مدل شما برای مجموعه داده آزمایش (test) باید یکی از موضوعات زیر باشد:
در نتیجه ممکن است ستون هدف (tags) در مجموعه داده اولیه نیازمند تغییرات باشد. توجه داشته باشید که در این مرحله از مسابقه مجاز به برچسب گذاری اخبار حداکثر با یک دسته اصلی میباشید.
به عنوان مثال، اخبار مربوط به کرونا با توجه به موضوع، می توانند در دستههای زیر قرار بگیرند:
مدل شما باید برای هر خبر (سطر) از مجموعه داده آزمایش، پیشبینی کند که محتوای آن خبر در کدام یک از ۶ دسته اصلی مذکور قرار میگیرد. در مرحله بعد باید بر اساس جدول زیر، رشتههای بدست آمده را encode کرده و جواب نهایی را بر اساس مقادیر عددی ارسال کنید
موضوع | مقدار عددی |
---|---|
اجتماعی | 0 |
اقتصادی | 1 |
ایران_استانها | 2 |
بین الملل | 3 |
سیاسی | 4 |
علمی_فرهنگی_ورزشی | 5 |
برای ارزیابی مدل شما از معیار F1 Score
استفاده میشود و مدل میانگینگیری نیز به صورت Weighted
است.
در طول مسابقه امتیازی که مشاهده میکنید، فقط نتیجهی F1 Score
روی ۳۰ درصد از فایلی است که برای کوئرا آپلود میکنید. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه میشود.
این کار به منظور جلوگیری از overfitting
و حفظ عمومیت مدل انجام میشود تا مطمئن شویم مدلهایی که دچار بیشبرازش شدهاند، در امتیازهی نهایی، افت میکنند.
پیشبینیهای مدل خود بر روی مجموعه داده آزمایش (test_data.csv
) را در فایلی با نام submission.csv
قرار دهید. این فایل باید دارای یک ستون با نام prediction
باشد که ردیف i ام آن، دسته پیشبینی شده برای خبر ردیف i ام از مجموعه داده آزمایش باشد (دقت کنید که ستون باید حتما دارای header
باشد). بعد از آمادهسازی فایل submission.csv
، آن را برای ما بارگذاری کنید.
prediction |
---|
0 |
1 |
2 |
3 |
4 |
5 |
header
باشد.prediction
باشد.فراموش نکنید که قبل از پایان زمان مسابقه، باید تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر اینصورت، شما از این مسابقه، امتیازی کسب نمیکنید.
توجه داشته باشید که اگر از jupter notebook
استفاده میکنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول نیستند.