پیش‌بینی - تحلیل بیمه ۲


حال که در مرحله قبلی با دادگان بیمه تا حدودی آشنا شدید، وقت آن است که برای هر مسافر، احتمال آن‌ که او برای سفر خود، بیمه تهیه کند را پیش‌بینی کنید.

bime

Photo by Scott Graham on Unsplash

دادگان🔗

دادگان این مرحله، دقیقا مانند مرحله قبل است. برای حل این سوال، دو فایل csv در اختیار خواهید داشت. فایل train.csv‍‍ همان فایلی است که باید بر اساس آن، مدل خود را آموزش دهید و فایل test.csv مشخصات مسافرانی را شامل می‌شود که باید احتمال خریدن بیمه را برای آن‌ها پیش‌بینی کنید. به عبارت بهتر باید تخمین بزنید چقدر احتمال دارد ستون TravelInsurance مقدار Yes‍‍ داشته باشد.

ارزیابی🔗

امتیاز نهایی مُدل شما تابعی از سطح زیر ناحیه نمودار ROC است. برای مطالعه بیشتر در مورد این نمودار می‌توانید ویکی‌پدیا یا راهنمای کوتاه نکات و ترفندهای یادگیری ماشین را مطالعه کنید.

امتیاز نهایی مدل شما طبق فرمول زیر محاسبه می‌شود.

score=((AUCROC×100)50)×2 score=((AUCROC\times100)-50)\times2

علت استفاده از این فرمول برای امتیازدهی، این است که اگر به صورت تصادفی برای مشتریان عددی پیش‌بینی کنید، auc_roc مدل شما ۰.۵ خواهد بود. بنابراین تنها مدل‌هایی پذیرفته می‌شوند که دارای auc_roc بیشتر از ۰.۵ باشند.

داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test) خواهد بود. پس از اتمام مسابقه، برای به‌روزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیش‌برازش (overfit‍‍‍) انجام می‌شود.

خروجی🔗

پیش‌بینی‌های مدل خود بر روی دادگان آزمایش (‍‍test.csv) را در فایلی با نام output.csv قرار دهید. این فایل باید دارای دو ستون با نام‌های prediction و Customer Id باشد که ردیف i ام ستون prediction پیش‌بینی شما (احتمال تهیه کردن بیمه - عددی بین صفر و یک) برای مشتری ردیف i ام از ستون Customer Id باشد (دقت کنید که ستون‌ها باید حتما دارای header باشند). بعد از آماده‌سازی فایل output.csv، آن را برای ما بارگذاری کنید.

توجه

حتما فایل output.csv باید دارای ۳۹۷ سطر و ۲ ستون باشد.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.