+ محدودیت زمان: ندارد
+ محدودیت حافظه: ندارد
دادههای این سوال را میتوانید از [اینجا]( [این لینک](/contest/assignments/32558/download_problem_initial_project/109763/) ) دریافت کنید.
علی پس از استخدام در شرکت بزرگ و معروف "هرمینا بلدان شریف" متوجه شده که تعداد بسیار زیادی ایمیل هرز دریافت میکند. به همین دلیل تصمیم گرفته تا سامانهای برای تشخیص ایمیلهای هرز (spam) طراحی بکند. او با جمعآوری تمام ایمیلهایی که اخیرا دریافت کرده مجموعه دادهای با نام train.csv ایجاد کرده. این مجموعه داده دارای دو ستون Text و Class میباشد که ستون اول متن ایمیل و ستون دوم کلاس مربوط به آن ایمیل است. کلاس $0$ نشانگر این است که ایمیل مربوطه اسپم نیست و مقدار $1$ نشانگر این است که ایمیل مربوطه اسپم است.
با استفاده از این دادهها مدلی طراحی کنید که بتواند ایمیلهای اسپم را از غیراسپم تشخیص بدهد. پس از آموزش مدل خود بر روی دادههای آموزش، پیشبینیهای مدل خود بر روی داده تست را در فایلی با نام submission.csv ارسال کنید. این فایل باید دارای یک ستون باشد که ردیف $i$ ام آن پیشبینی شما برای ردیف $i$ ام از داده تست میباشد (دقت کنید که ستون مورد نظر باید حتما دارای header باشد). پیشبینی های شما باید به صورت احتمالاتی و بین صفر و یک باشند. برای ارزیابی مدل شما از سطح زیر ناحیه نمودار ROC استفاده میشود. درمورد این نمودار میتوانید [اینجا](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) بیشتر مطالعه کنید.
تحلیل داده - مزاحمین دادهای