حال که در مرحله قبلی با دادگان بیمه تا حدودی آشنا شدید، وقت آن است که برای هر مسافر، احتمال آن که او برای سفر خود، بیمه تهیه کند را پیشبینی کنید.
%align_center_start% Photo by Scott Graham on Unsplash
%align_end%
دادگان
دادگان این مرحله، دقیقا مانند مرحله قبل است. برای حل این سوال، دو فایل csv
در اختیار خواهید داشت. فایل train.csv
همان فایلی است که باید بر اساس آن، مدل خود را آموزش دهید و فایل test.csv
مشخصات مسافرانی را شامل میشود که باید احتمال خریدن بیمه را برای آنها پیشبینی کنید. به عبارت بهتر باید تخمین بزنید چقدر احتمال دارد ستون TravelInsurance
مقدار Yes
داشته باشد.
ارزیابی
امتیاز نهایی مُدل شما تابعی از سطح زیر ناحیه نمودار ROC است. برای مطالعه بیشتر در مورد این نمودار میتوانید ویکیپدیا یا راهنمای کوتاه نکات و ترفندهای یادگیری ماشین را مطالعه کنید.
امتیاز نهایی مدل شما طبق فرمول زیر محاسبه میشود.
$$ score=((AUCROC\times100)-50)\times2$$
علت استفاده از این فرمول برای امتیازدهی، این است که اگر به صورت تصادفی برای مشتریان عددی پیشبینی کنید، auc_roc
مدل شما ۰.۵ خواهد بود. بنابراین تنها مدلهایی پذیرفته میشوند که دارای auc_roc
بیشتر از ۰.۵ باشند.
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test
) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit
) انجام میشود.
خروجی
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید. این فایل باید دارای دو ستون با نامهای prediction
و Customer Id
باشد که ردیف i ام ستون prediction
پیشبینی شما (احتمال تهیه کردن بیمه - عددی بین صفر و یک) برای مشتری ردیف i ام از ستون Customer Id
باشد (دقت کنید که ستونها باید حتما دارای header
باشند). بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
توجه
حتما فایل output.csv باید دارای ۳۹۷ سطر و ۲ ستون باشد.
ارسال پاسخ برای این سؤال