دادههای این سوال را میتوانید از این لینک دانلود کنید. |
---|
در این سوال میخواهیم با استفاده از مجموعهدادهای از جملات انگلیسی، وجود تضاد میان دو جمله را از نظر معنایی تشخیص دهیم.
برای مثال دو جملهی «امروز هوا بارانی است.» و «امروز هوا کاملاً صاف است.» معنایی متضاد یکدیگر دارند. اما دو جملهی «اسم من علی است.» و «این درخت گردوست.» تضادی با یکدیگر ندارند.
مجموعهداده
هنگامیکه این فایل را از حالت فشرده خارج کنید، فایلهای آموزش (train.csv
) و آزمون (test.csv
) در اختیار شما خواهند بود. فایل آموزش، ۶۶۹۴ سطر و ۳ ستون دارد.
جزییات فایل آموزش، در جدول زیر آمده است:
نام ستون | توضیحات ستون |
---|---|
SENTENCE A |
جمله اول |
SENTENCE B |
جمله دوم |
label |
اعداد 0 یا 1 |
- توجه ۱: در ستون
label
عدد ۱ بیانگر تضاد و عدد ۰ نشانهنده عدم تضاد بینSENTENCE A
وSENTENCE B
است. - توجه ۲: فایل آزمون دارای ستون
label
نیست.
صورت مسئله
با استفاده از مجموعهدادهی آموزشی، یک مدل برای پیشبینی تضاد بین نظرات آموزش دهید.
ارزیابی
برای ارزیابی مدل شما از معیار F1 Score
استفاده میشود و نتیجه نهایی بر اساس فرمول زیر محاسبه میگردد:
$$score= round(f1score, 3) \times 100$$
مقدار F1 Score
مدل شما تا ۳ رقم اعشار گرد شده و پس از ضرب در ۱۰۰ بهعنوان امتیاز شما از این سوال لحاظ میشود. بیشترین امتیاز ممکن از این سوال ۱۰۰ و کمترین امتیاز ممکن، صفر است.
توجه
در طول مسابقه امتیازی که مشاهده میکنید، فقط نتیجهی F1 Score
روی ۳۰ درصد از فایلی است که برای کوئرا آپلود میکنید. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه میشود.
این کار به منظور جلوگیری از overfitting
و حفظ عمومیت مدل انجام میشود تا مطمئن شویم مدلهایی که دچار بیشبرازش شدهاند، در امتیازهی نهایی، افت میکنند.
خروجی
پیشبینیهای مدل خود بر روی دیتای آزمون (test.csv
) را در فایلی با نام output.csv
قرار دهید. این فایل باید دارای یک ستون با نام label
باشد که ردیف i
ام آن، پیشبینی شما برای سطر i
ام مجموعهدادهی آزمون باشد (دقت کنید که این ستون باید حتماً دارای header
باشد).
بعد از آمادهسازی فایل output.csv
، آن را در سامانه بارگذاری کنید.
نمونه خروجی
فایل output.csv
شما باید چیزی شبیه به زیر باشد: (فقط سه خط اول به همراه نام ستون آورده شده است)
label
0
1
0
توجه
حتما فایل output.csv
باید دارای ۷۴۴ سطر (بدون در نظر گرفتن header
) و یک ستون باشد.
همچنین نام ستون بایستی بدون space
اضافه باشد. در غیر اینصورت، سیستم داوری نمرهای به شما نخواهد داد.
هشدار
فراموش نکنید که قبل از پایان زمان مسابقه، باید تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر اینصورت، شما از این مسابقه، امتیازی کسب نمیکنید.
توجه داشته باشید که اگر از jupter notebook
استفاده میکنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول نیستند.
ارسال پاسخ برای این سؤال