[قوانین شرکت در مسابقات](https://quera.ir/course/assignments/2693/problems/33523)
توضیحات آزمون در[ بلاگ کوئرا](https://quera.ir/blog/1399/10/09/%d9%85%d8%b3%d8%a7%d8%a8%d9%82%d9%87-%d8%aa%d8%ad%d9%84%db%8c%d9%84-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d9%81%db%8c%d8%af/).
در زمان مسابقه میتوانید سوالهای خود را از قسمت **"سوال بپرسید"** مطرح کنید.
تا نیم ساعت پس از پایان مسابقه، کد سوالات خود را در بخش "آپلود کد سوالات پاسخ داده شده" آپلود کنید.
دادگان مربوط به سوال "پرتو آوا ندارد" دیروز در اختیار شما قرار داده بودیم و در صورت سوال رمز فایل train در اختیار شما قرار دارد(همچنان میتوانید لینک دانلود را در [بلاگ کوئرا](https://quera.ir/blog/1399/10/09/%d9%85%d8%b3%d8%a7%d8%a8%d9%82%d9%87-%d8%aa%d8%ad%d9%84%db%8c%d9%84-%d8%af%d8%a7%d8%af%d9%87-%d9%85%d9%81%db%8c%d8%af/) ببینید).
قوانین شرکت در مسابقات
توضیحات آزمون در بلاگ کوئرا.
در زمان مسابقه میتوانید سوالهای خود را از قسمت "سوال بپرسید" مطرح کنید.
تا نیم ساعت پس از پایان مسابقه، کد سوالات خود را در بخش "آپلود کد سوالات پاسخ داده شده" آپلود کنید.
دادگان مربوط به سوال "پرتو آوا ندارد" دیروز در اختیار شما قرار داده بودیم و در صورت سوال رمز فایل train در اختیار شما قرار دارد(همچنان میتوانید لینک دانلود را در بلاگ کوئرا ببینید).
+ محدودیت زمان: ندارد
+ محدودیت حافظه: ندارد
دادههای این سوال را میتوانید از [اینجا]( [این لینک](/contest/assignments/24489/download_problem_initial_project/81032/) ) دریافت کنید.
علی پس از استخدام در شرکت بزرگ و معروف "هرمینا بلدان شریف" متوجه شده که تعداد بسیار زیادی ایمیل هرز دریافت میکند. به همین دلیل تصمیم گرفته تا سامانهای برای تشخیص ایمیلهای هرز (spam) طراحی بکند. او با جمعآوری تمام ایمیلهایی که اخیرا دریافت کرده مجموعه دادهای با نام train.csv ایجاد کرده. این مجموعه داده دارای دو ستون Text و Class میباشد که ستون اول متن ایمیل و ستون دوم کلاس مربوط به آن ایمیل است. کلاس $0$ نشانگر این است که ایمیل مربوطه اسپم نیست و مقدار $1$ نشانگر این است که ایمیل مربوطه اسپم است.
با استفاده از این دادهها مدلی طراحی کنید که بتواند ایمیلهای اسپم را از غیراسپم تشخیص بدهد. پس از آموزش مدل خود بر روی دادههای آموزش، پیشبینیهای مدل خود بر روی داده تست را در فایلی با نام submission.csv ارسال کنید. این فایل باید دارای یک ستون باشد که ردیف $i$ ام آن پیشبینی شما برای ردیف $i$ ام از داده تست میباشد (دقت کنید که ستون مورد نظر باید حتما دارای header باشد). پیشبینی های شما باید به صورت احتمالاتی و بین صفر و یک باشند. برای ارزیابی مدل شما از سطح زیر ناحیه نمودار ROC استفاده میشود. درمورد این نمودار میتوانید [اینجا](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) بیشتر مطالعه کنید.
مزاحمین دادهای
- محدودیت زمان: ندارد
- محدودیت حافظه: ندارد
دادههای این سوال را میتوانید از [اینجا]( این لینک ) دریافت کنید.
علی پس از استخدام در شرکت بزرگ و معروف "هرمینا بلدان شریف" متوجه شده که تعداد بسیار زیادی ایمیل هرز دریافت میکند. به همین دلیل تصمیم گرفته تا سامانهای برای تشخیص ایمیلهای هرز (spam) طراحی بکند. او با جمعآوری تمام ایمیلهایی که اخیرا دریافت کرده مجموعه دادهای با نام train.csv ایجاد کرده. این مجموعه داده دارای دو ستون Text و Class میباشد که ستون اول متن ایمیل و ستون دوم کلاس مربوط به آن ایمیل است. کلاس 0 نشانگر این است که ایمیل مربوطه اسپم نیست و مقدار 1 نشانگر این است که ایمیل مربوطه اسپم است.
با استفاده از این دادهها مدلی طراحی کنید که بتواند ایمیلهای اسپم را از غیراسپم تشخیص بدهد. پس از آموزش مدل خود بر روی دادههای آموزش، پیشبینیهای مدل خود بر روی داده تست را در فایلی با نام submission.csv ارسال کنید. این فایل باید دارای یک ستون باشد که ردیف i ام آن پیشبینی شما برای ردیف i ام از داده تست میباشد (دقت کنید که ستون مورد نظر باید حتما دارای header باشد). پیشبینی های شما باید به صورت احتمالاتی و بین صفر و یک باشند. برای ارزیابی مدل شما از سطح زیر ناحیه نمودار ROC استفاده میشود. درمورد این نمودار میتوانید اینجا بیشتر مطالعه کنید.
ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.