| فایل اولیهی دادگان آموزش و آزمون را میتوانید از [این لینک](/contest/assignments/84377/download_problem_initial_project/306368/) دانلود کنید.|
|:-:|
در دنیای امروز، سرعت انتشار خبر به حدی بالاست که گاهی تشخیص حقیقت از دروغ دشوار میشود. برخی منابع با اهداف مختلف، اخبار جعلی یا تحریفشده منتشر میکنند که میتواند اثرات اجتماعی، اقتصادی و روانی داشته باشد. در این سوال، شما باید مدلی بسازید که بتواند بر اساس متن خبر (شامل تیتر و محتوای خبر)، تشخیص دهد که آیا خبر **واقعی** است یا **جعلی**.
به شما مجموعهای از اخبار فارسی داده میشود که برای هر نمونه، برچسب آن به صورت `real` (واقعی) یا `fake` (جعلی) مشخص شده است. با استفاده از این دادهها باید مدل خود را آموزش دهید تا بتواند بر روی مجموعهی تست، اخبار را به درستی دستهبندی کند.
### توضیحات داده
دادهها در قالب یک فایل CSV ارائه میشوند و شامل ستونهای زیر هستند:
- `id`: شناسه یکتا برای هر خبر
- `headline`: تیتر خبر
- `content`: متن کامل یا خلاصه خبر
- `label`: (فقط در دادهی آموزش) مقدار `درست` یا `نادرست`
### هدف
مدلی طراحی کنید که با استفاده از تیتر و متن خبر، بتواند اخبار جعلی را شناسایی کند. میتوانید از روشهای یادگیری ماشین کلاسیک، یادگیری عمیق و یا روشهای پیشرفته مبتنی بر مدلهای زبانی استفاده کنید.
### ⚠️ نکات مهم
- دادهها بهگونهای تقسیم شدهاند که خبرهای مربوط به یک رویداد فقط در یکی از مجموعههای آموزش یا تست قرار دارند.
- استفاده از دادههای خارجی فقط در صورتی مجاز است که عمومی و رایگان باشند و در توضیحات کد ذکر شوند.
- دادهی تست فاقد ستون `label` است و باید خروجی مدل شما روی آن تولید شود.
### معیار ارزیابی
برای ارزیابی از **Macro-F1** استفاده میشود تا اثر عدم توازن داده کاهش یابد. فرمول آن به صورت زیر است:
$$F1_{macro} = \frac{1}{2} (F1_{real} + F1_{fake})$$
<details class="red">
<summary>
**توجه**
</summary>
> در صورتی که Macro-F1 شما کمتر از ۰.۵ باشد، نمرهٔ نهایی صفر خواهد بود.
</details>
<details class="red">
<summary>
**توجه**
</summary>
در طول مسابقه امتیازی که مشاهده میکنید، فقط نتیجهی ارزیابی مدل شما روی ۳۰ درصد از دادههای آزمون است. بعد از پایان زمان مسابقه، **امتیاز نهایی** شما روی ۷۰ درصد مابقی محاسبه میشود.
این کار به منظور جلوگیری از بیشبرازش (`overfitting`) و حفظ عمومیت مدل انجام میشود تا مطمئن شویم مدلهایی که دچار بیشبرازش شدهاند، در امتیازدهی نهایی، افت میکنند.
</details>
### نحوه ارسال پاسخ
برای این سوال یک فایل `result.zip` ارسال کنید که شامل موارد زیر است:
1. **`submission.csv`**: خروجی مدل شما روی `test.csv` با یک ستون:
- `label` (`درست` یا `نادرست`)
2. **`notebook.ipynb`**: کد کامل شامل پیشپردازش، آموزش مدل، و تولید خروجی.
ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.