قوانین شرکت در مسابقات

توضیحات آزمون در بلاگ کوئرا.

در زمان مسابقه می‌توانید سوال‌های خود را از قسمت "سوال بپرسید" مطرح کنید.

تا نیم ساعت پس از پایان مسابقه، کد سوالات خود را در بخش "آپلود کد سوالات پاسخ داده شده" آپلود کنید.

دادگان مربوط به سوال ‌"پرتو آوا ندارد" دیروز در اختیار شما قرار داده بودیم و در صورت سوال رمز فایل train در اختیار شما قرار دارد(همچنان می‌توانید لینک دانلود را در بلاگ کوئرا ببینید).

مزاحمین داده‌ای


  • محدودیت زمان: ندارد
  • محدودیت حافظه: ندارد

داده‌های این سوال را می‌توانید از [اینجا]( این لینک ) دریافت کنید.

علی پس از استخدام در شرکت بزرگ و معروف "هرمینا بلدان شریف" متوجه شده که تعداد بسیار زیادی ایمیل هرز دریافت می‌کند. به همین دلیل تصمیم گرفته تا سامانه‌ای برای تشخیص ایمیل‌‌های هرز (spam) طراحی بکند. او با جمع‌آوری تمام ایمیل‌هایی که اخیرا دریافت کرده مجموعه داده‌ای با نام ‌train.csv ایجاد کرده. این مجموعه داده دارای دو ستون Text و Class می‌باشد که ستون اول متن ایمیل و ستون دوم کلاس مربوط به آن ایمیل است. کلاس 00 نشانگر این است که ایمیل مربوطه اسپم نیست و مقدار 11 نشانگر این است که ایمیل مربوطه اسپم است.

با استفاده از این داده‌ها مدلی طراحی کنید که بتواند ایمیل‌های اسپم را از غیراسپم تشخیص بدهد. پس از آموزش مدل خود بر روی داده‌های آموزش،‌ پیش‌بینی‌های مدل خود بر روی داده تست را در فایلی با نام submission.csv ارسال کنید. این فایل باید دارای یک ستون باشد که ردیف ii ام آن پیش‌بینی شما برای ردیف ii ام از داده تست می‌باشد (دقت کنید که ستون مورد نظر باید حتما دارای header باشد). پیش‌بینی های شما باید به صورت احتمالاتی و بین صفر و یک باشند. برای ارزیابی مدل شما از سطح زیر ناحیه نمودار ROC استفاده می‌شود. درمورد این نمودار می‌توانید اینجا بیشتر مطالعه کنید.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.