حال که در مرحله قبلی با دادگان بیمه تا حدودی آشنا شدید، وقت آن است که برای هر مسافر، احتمال آن که او برای سفر خود، بیمه تهیه کند را پیشبینی کنید.
![bime](https://quera.ir/qbox/view/v26lsk1Hjh/scott-graham-5fNmWej4tAA-unsplash.jpg)
%align_center_start%
Photo by [Scott Graham](https://unsplash.com/@homajob?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText) on [Unsplash](https://unsplash.com/s/photos/insurance?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText)
%align_end%
## دادگان
دادگان این مرحله، دقیقا مانند مرحله قبل است. برای حل این سوال، دو فایل `csv` در اختیار خواهید داشت. فایل `train.csv` همان فایلی است که باید بر اساس آن، مدل خود را آموزش دهید و فایل `test.csv` مشخصات مسافرانی را شامل میشود که باید احتمال خریدن بیمه را برای آنها پیشبینی کنید. به عبارت بهتر باید تخمین بزنید چقدر **احتمال** دارد ستون `TravelInsurance` مقدار `Yes` داشته باشد.
## ارزیابی
امتیاز نهایی مُدل شما تابعی از سطح زیر ناحیه نمودار ROC است. برای مطالعه بیشتر در مورد این نمودار میتوانید [ویکیپدیا](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) یا [راهنمای کوتاه نکات و ترفندهای یادگیری ماشین](https://stanford.edu/~shervine/l/fa/teaching/cs-229/cheatsheet-machine-learning-tips-and-tricks) را مطالعه کنید.
امتیاز نهایی مدل شما طبق فرمول زیر محاسبه میشود.
$$ score=((AUCROC\times100)-50)\times2$$
علت استفاده از این فرمول برای امتیازدهی، این است که اگر به صورت تصادفی برای مشتریان عددی پیشبینی کنید، `auc_roc` مدل شما ۰.۵ خواهد بود. بنابراین تنها مدلهایی پذیرفته میشوند که دارای `auc_roc` بیشتر از ۰.۵ باشند.
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (`test`) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (`overfit`) انجام میشود.
## خروجی
پیشبینیهای مدل خود بر روی دادگان آزمایش (`test.csv`) را در فایلی با نام `output.csv` قرار دهید. این فایل باید دارای دو ستون با نامهای `prediction` و `Customer Id` باشد که ردیف i ام ستون `prediction` پیشبینی شما (احتمال تهیه کردن بیمه - عددی بین صفر و یک) برای مشتری ردیف i ام از ستون `Customer Id` باشد (دقت کنید که ستونها باید حتما دارای `header` باشند). بعد از آمادهسازی فایل `output.csv`، آن را برای ما بارگذاری کنید.
<details class="yellow">
<summary>
**توجه**
</summary>
حتما فایل output.csv باید دارای ۳۹۷ سطر و ۲ ستون باشد.
</details>