حال که در مرحله قبلی با دادگان بیمه تا حدودی آشنا شدید، وقت آن است که برای هر مسافر، احتمال آن‌ که او برای سفر خود، بیمه تهیه کند را پیش‌بینی کنید. ![bime](https://quera.ir/qbox/view/v26lsk1Hjh/scott-graham-5fNmWej4tAA-unsplash.jpg) %align_center_start% Photo by [Scott Graham](https://unsplash.com/@homajob?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText) on [Unsplash](https://unsplash.com/s/photos/insurance?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText) %align_end% ## دادگان دادگان این مرحله، دقیقا مانند مرحله قبل است. برای حل این سوال، دو فایل `csv` در اختیار خواهید داشت. فایل `train.csv‍‍` همان فایلی است که باید بر اساس آن، مدل خود را آموزش دهید و فایل `test.csv` مشخصات مسافرانی را شامل می‌شود که باید احتمال خریدن بیمه را برای آن‌ها پیش‌بینی کنید. به عبارت بهتر باید تخمین بزنید چقدر **احتمال** دارد ستون `TravelInsurance` مقدار `Yes‍‍` داشته باشد. ## ارزیابی امتیاز نهایی مُدل شما تابعی از سطح زیر ناحیه نمودار ROC است. برای مطالعه بیشتر در مورد این نمودار می‌توانید [ویکی‌پدیا](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) یا [راهنمای کوتاه نکات و ترفندهای یادگیری ماشین](https://stanford.edu/~shervine/l/fa/teaching/cs-229/cheatsheet-machine-learning-tips-and-tricks) را مطالعه کنید. امتیاز نهایی مدل شما طبق فرمول زیر محاسبه می‌شود. $$ score=((AUCROC\times100)-50)\times2$$ علت استفاده از این فرمول برای امتیازدهی، این است که اگر به صورت تصادفی برای مشتریان عددی پیش‌بینی کنید، `auc_roc` مدل شما ۰.۵ خواهد بود. بنابراین تنها مدل‌هایی پذیرفته می‌شوند که دارای `auc_roc` بیشتر از ۰.۵ باشند. داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (`test`) خواهد بود. پس از اتمام مسابقه، برای به‌روزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیش‌برازش (`overfit‍‍‍`) انجام می‌شود. ## خروجی پیش‌بینی‌های مدل خود بر روی دادگان آزمایش (‍‍`test.csv`) را در فایلی با نام `output.csv` قرار دهید. این فایل باید دارای دو ستون با نام‌های `prediction` و `Customer Id` باشد که ردیف i ام ستون `prediction` پیش‌بینی شما (احتمال تهیه کردن بیمه - عددی بین صفر و یک) برای مشتری ردیف i ام از ستون `Customer Id` باشد (دقت کنید که ستون‌ها باید حتما دارای `header` باشند). بعد از آماده‌سازی فایل `output.csv`، آن را برای ما بارگذاری کنید. <details class="yellow"> <summary> **توجه** </summary> حتما فایل output.csv باید دارای ۳۹۷ سطر و ۲ ستون باشد. </details>

پیش‌بینی - تحلیل بیمه ۲

ارسال پاسخ برای این سؤال

در حال حاضر شما دسترسی ندارید.

حل سؤال در بانک سؤالات