فایل اولیهی دادگان آموزش و آزمون را میتوانید از این لینک دانلود کنید. |
---|
در دنیای امروز، سرعت انتشار خبر به حدی بالاست که گاهی تشخیص حقیقت از دروغ دشوار میشود. برخی منابع با اهداف مختلف، اخبار جعلی یا تحریفشده منتشر میکنند که میتواند اثرات اجتماعی، اقتصادی و روانی داشته باشد. در این سوال، شما باید مدلی بسازید که بتواند بر اساس متن خبر (شامل تیتر و محتوای خبر)، تشخیص دهد که آیا خبر واقعی است یا جعلی.
به شما مجموعهای از اخبار فارسی داده میشود که برای هر نمونه، برچسب آن به صورت real
(واقعی) یا fake
(جعلی) مشخص شده است. با استفاده از این دادهها باید مدل خود را آموزش دهید تا بتواند بر روی مجموعهی تست، اخبار را به درستی دستهبندی کند.
توضیحات داده
دادهها در قالب یک فایل CSV ارائه میشوند و شامل ستونهای زیر هستند:
id
: شناسه یکتا برای هر خبرheadline
: تیتر خبرcontent
: متن کامل یا خلاصه خبرlabel
: (فقط در دادهی آموزش) مقداردرست
یانادرست
هدف
مدلی طراحی کنید که با استفاده از تیتر و متن خبر، بتواند اخبار جعلی را شناسایی کند. میتوانید از روشهای یادگیری ماشین کلاسیک، یادگیری عمیق و یا روشهای پیشرفته مبتنی بر مدلهای زبانی استفاده کنید.
⚠️ نکات مهم
- دادهها بهگونهای تقسیم شدهاند که خبرهای مربوط به یک رویداد فقط در یکی از مجموعههای آموزش یا تست قرار دارند.
- استفاده از دادههای خارجی فقط در صورتی مجاز است که عمومی و رایگان باشند و در توضیحات کد ذکر شوند.
- دادهی تست فاقد ستون
label
است و باید خروجی مدل شما روی آن تولید شود.
معیار ارزیابی
برای ارزیابی از Macro-F1 استفاده میشود تا اثر عدم توازن داده کاهش یابد. فرمول آن به صورت زیر است:
$$F1_{macro} = \frac{1}{2} (F1_{real} + F1_{fake})$$
توجه
در صورتی که Macro-F1 شما کمتر از ۰.۵ باشد، نمرهٔ نهایی صفر خواهد بود.
توجه
در طول مسابقه امتیازی که مشاهده میکنید، فقط نتیجهی ارزیابی مدل شما روی ۳۰ درصد از دادههای آزمون است. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه میشود.
این کار به منظور جلوگیری از بیشبرازش (overfitting
) و حفظ عمومیت مدل انجام میشود تا مطمئن شویم مدلهایی که دچار بیشبرازش شدهاند، در امتیازدهی نهایی، افت میکنند.
نحوه ارسال پاسخ
برای این سوال یک فایل result.zip
ارسال کنید که شامل موارد زیر است:
submission.csv
: خروجی مدل شما رویtest.csv
با یک ستون:label
(درست
یانادرست
)
notebook.ipynb
: کد کامل شامل پیشپردازش، آموزش مدل، و تولید خروجی.
ارسال پاسخ برای این سؤال