مجموعهداده این سوال را میتوانید از این لینک دانلود کنید. |
---|
معلم فیروزه برای تنبیه او تعداد زیادی عبارت ریاضی به او داده و گفته است تا فردا باید همهی آنها را حل کند.
فیروزه که دانشآموز بازیگوشی است نمیخواهد این کار را به صورت دستی انجام دهد. بنابراین تصمیم گرفته تا از شما که یک متخصص بینایی ماشین هستید مدلی طراحی کنید تا با دیدن تصویر عبارت، آن را حل کند. اما از بد حادثه، فیروزه متوجه شد که امیرعلی برای اذیت کردن او تعداد عبارت ریاضی دیگر را با مجموعه معادلات فیروزه ترکیب کرده است. خوشبختانه از آنحا که امیرعلی یک برنامهنویس تنبل است عبارات خود را با استفاده از یک برنامه تایپ کرده است.
فیروزه از شما میخواهد به او کمک کنید و برای هر عبارت تشخیص دهید که آیا عبارت دستنویس یا تایپی است؟ همچنین مقدار حاصل آن عبارت را تا دو رقم اعشار محاسبه نمایید.
مجموعهداده
در فایل اولیه این سوال دو پوشه با نامهای train
و test
قرار دارند که به ترتیب مجموعهدادهی آموزش و آزمون این سوال هستند.
مجموعهدادهی آموزش این سوال شامل تعداد ۸۱۴ عکس است که اطلاعات آن را میتوانید در فایل train_info.csv
مشاهده نمایید. در پوشهی test
نیز تعداد ۳۱۲ عکس قرار دارد که باید برچسب آنها را پیشبینی کنید.
هر کدام از عکسهای ذکر شده، شامل یک عبارت ریاضی ساده است. این عبارات شامل اعداد یکرقمی یا دورقمی (با ارقام لاتین) و چهار عمل اصلی (+، -، ×، ÷) و پرانتز هستند.
توجه
استفاده از OCR آماده (مانند Tesseract یا APIهای گوگل و غیره) ممنوع است. و در صورت استفاده نمره کل سوال صفر خواهد شد.
معیار ارزیابی
بخش اول
در این بخش مدل شما با استفاده از معیار F1_Score
ارزیابی خواهد شد و باید حداقل دقت ۶۰ (از ۱۰۰) را کسب نماید و در غیر این صورت امتیاز این بخش صفر خواهد بود.
بخش دوم
در این بخش مدل شما با استفاده از معیار Accuracy
ارزیابی خواهد شد (نسبت تعداد جوابهای درست به کل نمونهها) و باید حداقل دقت ۴۰ درصد را کسب نماید و در غیر این صورت امتیاز این بخش صفر خواهد بود.
اگر امتیاز کسب شده توسط شما در بخشهای این سوال به ترتیب S1
و S2
باشد (امتیاز هر بخش از ۱۰۰ است) نمره نهایی شما با فرمول زیر محاسبه میشود.
توجه
در طول مسابقه امتیازی که مشاهده میکنید، فقط نتیجهی دقت حل شما روی ۳۰ درصد از مجموعهداده آزمون است و بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه میشود.
این کار به منظور جلوگیری از overfitting
و حفظ عمومیت مدل انجام میشود تا مطمئن شویم مدلهایی که دچار بیشبرازش شدهاند، در امتیازدهی نهایی، افت میکنند.
نحوهی ارسال پاسخ
برای ارسال پاسخ به این سوال باید یک فایل با نام submission.csv
درست نمایید. این فایل شامل تنها دو ستون با نامهای type
و answer
است و ۳۱۲ سطر دارد (غیر از سطر مربوط به نام ستون) که سطر با اندیس n
، مقدار پیشبینی مدل شما برای تصویر با نام n.png
در مجموعهداده آزمون است. همچنین مقادیر درون ستونها به شرح زیر است:
type
: پیشبینی مدل شما برای دستنویس (مقدار ۱) یا تایپی (مقدار ۰)answer
: مقدار حاصل عبارت درون تصویر (تا دو رقم اعشار مجاسبه شود)
برای مثال جدول زیر قالب ۵ سطر ابتدایی خروجی شما را مشخص میکند. (البته این مقادیر به صورت فرضی هستند و با جواب شما ممکن است متفاوت باشند)
type | answer |
---|---|
0 | 1.20 |
0 | 2.34 |
1 | 33.17 |
0 | 12.01 |
1 | 2.00 |
نکتهی بسیار مهم
توجه داشته باشید که پس از حل سوال باید کد مربوط به آموزش مدل خود را در سوال آخر بارگذاری نمایید. در غیر این صورت نمره این سوال شما صفر خواهد شد.
ارسال پاسخ برای این سؤال