حال که در مرحله قبلی با دادگان بیمه تا حدودی آشنا شدید، وقت آن است که برای هر مسافر، احتمال آن که او برای سفر خود، بیمه تهیه کند را پیشبینی کنید.
%align_center_start%
Photo by Scott Graham on Unsplash
%align_end%
دادگان
دادگان این مرحله، دقیقا مانند مرحله قبل است. برای حل این سوال، دو فایل csv در اختیار خواهید داشت. فایل train.csv همان فایلی است که باید بر اساس آن، مدل خود را آموزش دهید و فایل test.csv مشخصات مسافرانی را شامل میشود که باید احتمال خریدن بیمه را برای آنها پیشبینی کنید. به عبارت بهتر باید تخمین بزنید چقدر احتمال دارد ستون TravelInsurance مقدار Yes داشته باشد.
ارزیابی
امتیاز نهایی مُدل شما تابعی از سطح زیر ناحیه نمودار ROC است. برای مطالعه بیشتر در مورد این نمودار میتوانید ویکیپدیا یا راهنمای کوتاه نکات و ترفندهای یادگیری ماشین را مطالعه کنید.
امتیاز نهایی مدل شما طبق فرمول زیر محاسبه میشود.
$$ score=((AUCROC\times100)-50)\times2$$
علت استفاده از این فرمول برای امتیازدهی، این است که اگر به صورت تصادفی برای مشتریان عددی پیشبینی کنید، auc_roc مدل شما ۰.۵ خواهد بود. بنابراین تنها مدلهایی پذیرفته میشوند که دارای auc_roc بیشتر از ۰.۵ باشند.
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit) انجام میشود.
خروجی
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv) را در فایلی با نام output.csv قرار دهید. این فایل باید دارای دو ستون با نامهای prediction و Customer Id باشد که ردیف i ام ستون prediction پیشبینی شما (احتمال تهیه کردن بیمه - عددی بین صفر و یک) برای مشتری ردیف i ام از ستون Customer Id باشد (دقت کنید که ستونها باید حتما دارای header باشند). بعد از آمادهسازی فایل output.csv، آن را برای ما بارگذاری کنید.
توجه
حتما فایل output.csv باید دارای ۳۹۷ سطر و ۲ ستون باشد.
ارسال پاسخ برای این سؤال