جمع نقیضین


داده‌های این سوال را می‌توانید از این لینک دانلود کنید.

در این سوال می‌خواهیم با استفاده از مجموعه‌داده‌ای از جملات انگلیسی، وجود تضاد میان دو جمله را از نظر معنایی تشخیص دهیم.

برای مثال دو جمله‌ی «امروز هوا بارانی است.» و «امروز هوا کاملاً صاف است.» معنایی متضاد یک‌دیگر دارند. اما دو جمله‌ی «اسم من علی است.» و «این درخت گردوست.» تضادی با یک‌دیگر ندارند.

مجموعه‌داده🔗

هنگامی‌که این فایل را از حالت فشرده خارج کنید، فایل‌های ‌آموزش (train.csv) و آزمون (test.csv) در اختیار شما خواهند بود. فایل آموزش، ۶۶۹۴ سطر و ۳ ستون دارد.

جزییات فایل آموزش، در جدول زیر آمده‌ است:

نام ستون توضیحات ستون
SENTENCE A جمله اول
SENTENCE B جمله دوم
label اعداد 0 یا 1
  • توجه ۱: در ستون label عدد ۱ بیان‌گر تضاد و عدد ۰ نشان‌هنده عدم تضاد بین SENTENCE A و SENTENCE B است.
  • توجه ۲: فایل آزمون دارای ستون label نیست.

صورت مسئله🔗

با استفاده از مجموعه‌داده‌ی آموزشی، یک مدل برای پیش‌بینی تضاد بین نظرات آموزش دهید.

ارزیابی🔗

برای ارزیابی مدل شما از معیار ‍‍F1 Score استفاده می‌شود و نتیجه نهایی بر اساس فرمول زیر محاسبه می‌گردد:

score=round(f1score,3)×100score= round(f1score, 3) \times 100

مقدار F1 Score مدل شما تا ۳ رقم اعشار گرد شده و پس از ضرب در ۱۰۰ به‌عنوان امتیاز شما از این سوال لحاظ می‌شود. بیشترین امتیاز ممکن از این سوال ۱۰۰ و کمترین امتیاز ممکن، صفر است.

توجه

در طول مسابقه امتیازی که مشاهده می‌کنید، فقط نتیجه‌ی F1 Score روی ۳۰ درصد از فایلی است که برای کوئرا آپلود می‌کنید. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه می‌شود.

این کار به منظور جلوگیری از overfitting و حفظ عمومیت مدل انجام می‌شود تا مطمئن شویم مدل‌هایی که دچار بیش‌برازش شده‌اند، در امتیازهی نهایی، افت می‌کنند.

خروجی🔗

پیش‌بینی‌های مدل خود بر روی دیتای آزمون (‍‍test.csv) را در فایلی با نام output.csv قرار دهید. این فایل باید دارای یک ستون با نام label باشد که ردیف iام آن، پیش‌بینی شما برای سطر iام مجموعه‌داده‌ی آزمون باشد (دقت کنید که این ستون باید حتماً دارای header باشد).

بعد از آماده‌سازی فایل output.csv، آن را در سامانه بارگذاری کنید.

نمونه خروجی🔗

فایل output.csv شما باید چیزی شبیه به زیر باشد: (فقط سه خط اول به همراه نام ستون آورده شده است)

label
0
1
0
Plain text
توجه

حتما فایل output.csv باید دارای ۷۴۴ سطر (بدون در نظر گرفتن header) و یک ستون باشد.

هم‌چنین نام ستون بایستی بدون space اضافه باشد. در غیر این‌صورت، سیستم داوری نمره‌ای به شما نخواهد داد.

هشدار

فراموش نکنید که قبل از پایان زمان مسابقه، باید تمامی کد‌های این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این‌صورت، شما از این مسابقه، امتیازی کسب نمی‌کنید.

توجه داشته باشید که اگر از jupter notebook استفاده می‌کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py را دریافت و برای ارسال در نظر بگیرید. ارسال فایل‌های jupyter همانند ‍‍.ipynb مورد قبول نیستند.