| فایل‌ اولیه‌ی دادگان آموزش و آزمون را می‌توانید از [این لینک](/contest/assignments/84377/download_problem_initial_project/306368/) دانلود کنید.| |:-:| در دنیای امروز، سرعت انتشار خبر به حدی بالاست که گاهی تشخیص حقیقت از دروغ دشوار می‌شود. برخی منابع با اهداف مختلف، اخبار جعلی یا تحریف‌شده منتشر می‌کنند که می‌تواند اثرات اجتماعی، اقتصادی و روانی داشته باشد. در این سوال، شما باید مدلی بسازید که بتواند بر اساس متن خبر (شامل تیتر و محتوای خبر)، تشخیص دهد که آیا خبر **واقعی** است یا **جعلی**. به شما مجموعه‌ای از اخبار فارسی داده می‌شود که برای هر نمونه، برچسب آن به صورت `real` (واقعی) یا `fake` (جعلی) مشخص شده است. با استفاده از این داده‌ها باید مدل خود را آموزش دهید تا بتواند بر روی مجموعه‌ی تست، اخبار را به درستی دسته‌بندی کند. ### توضیحات داده داده‌ها در قالب یک فایل CSV ارائه می‌شوند و شامل ستون‌های زیر هستند: - `id`: شناسه یکتا برای هر خبر - `headline`: تیتر خبر - `content`: متن کامل یا خلاصه خبر - `label`: (فقط در داده‌ی آموزش) مقدار `درست` یا `نادرست` ### هدف مدلی طراحی کنید که با استفاده از تیتر و متن خبر، بتواند اخبار جعلی را شناسایی کند. می‌توانید از روش‌های یادگیری ماشین کلاسیک، یادگیری عمیق و یا روش‌های پیشرفته مبتنی بر مدل‌های زبانی استفاده کنید. ### ⚠️ نکات مهم - داده‌ها به‌گونه‌ای تقسیم شده‌اند که خبرهای مربوط به یک رویداد فقط در یکی از مجموعه‌های آموزش یا تست قرار دارند. - استفاده از داده‌های خارجی فقط در صورتی مجاز است که عمومی و رایگان باشند و در توضیحات کد ذکر شوند. - داده‌ی تست فاقد ستون `label` است و باید خروجی مدل شما روی آن تولید شود. ### معیار ارزیابی برای ارزیابی از **Macro-F1** استفاده می‌شود تا اثر عدم توازن داده کاهش یابد. فرمول آن به صورت زیر است: $$F1_{macro} = \frac{1}{2} (F1_{real} + F1_{fake})$$ <details class="red"> <summary> **توجه** </summary> > در صورتی که Macro-F1 شما کمتر از ۰.۵ باشد، نمرهٔ نهایی صفر خواهد بود. </details> <details class="red"> <summary> **توجه** </summary> در طول مسابقه امتیازی که مشاهده می‌کنید، فقط نتیجه‌ی ارزیابی مدل شما روی ۳۰ درصد از داده‌های آزمون است. بعد از پایان زمان مسابقه، **امتیاز نهایی** شما روی ۷۰ درصد مابقی محاسبه می‌شود. این کار به منظور جلوگیری از بیش‌برازش (`overfitting`) و حفظ عمومیت مدل انجام می‌شود تا مطمئن شویم مدل‌هایی که دچار بیش‌برازش شده‌اند، در امتیازدهی نهایی، افت می‌کنند. </details> ### نحوه ارسال پاسخ برای این سوال یک فایل `result.zip` ارسال کنید که شامل موارد زیر است: 1. **`submission.csv`**: خروجی مدل شما روی `test.csv` با یک ستون: - `label` (`درست` یا `نادرست`) 2. **`notebook.ipynb`**: کد کامل شامل پیش‌پردازش، آموزش مدل، و تولید خروجی.

راسته یا دروغ؟

ارسال پاسخ برای این سؤال

در حال حاضر شما دسترسی ندارید.

حل سؤال در بانک سؤالات