مزاحمین داده‌ای


  • محدودیت زمان: ندارد
  • محدودیت حافظه: ندارد

داده‌های این سوال را می‌توانید از [اینجا]( این لینک ) دریافت کنید.

علی پس از استخدام در شرکت بزرگ و معروف "هرمینا بلدان شریف" متوجه شده که تعداد بسیار زیادی ایمیل هرز دریافت می‌کند. به همین دلیل تصمیم گرفته تا سامانه‌ای برای تشخیص ایمیل‌‌های هرز (spam) طراحی بکند. او با جمع‌آوری تمام ایمیل‌هایی که اخیرا دریافت کرده مجموعه داده‌ای با نام ‌train.csv ایجاد کرده. این مجموعه داده دارای دو ستون Text و Class می‌باشد که ستون اول متن ایمیل و ستون دوم کلاس مربوط به آن ایمیل است. کلاس 00 نشانگر این است که ایمیل مربوطه اسپم نیست و مقدار 11 نشانگر این است که ایمیل مربوطه اسپم است.

با استفاده از این داده‌ها مدلی طراحی کنید که بتواند ایمیل‌های اسپم را از غیراسپم تشخیص بدهد. پس از آموزش مدل خود بر روی داده‌های آموزش،‌ پیش‌بینی‌های مدل خود بر روی داده تست را در فایلی با نام submission.csv ارسال کنید. این فایل باید دارای یک ستون باشد که ردیف ii ام آن پیش‌بینی شما برای ردیف ii ام از داده تست می‌باشد (دقت کنید که ستون مورد نظر باید حتما دارای header باشد). پیش‌بینی های شما باید به صورت احتمالاتی و بین صفر و یک باشند. برای ارزیابی مدل شما از سطح زیر ناحیه نمودار ROC استفاده می‌شود. درمورد این نمودار می‌توانید اینجا بیشتر مطالعه کنید.