دیجیکالا، بزرگترین فروشگاه اینترنتی ایران، طیف متنوعی از کالاها را با تنوع دستهبندی در اختیار کاربران قرار میدهد. در این فروشگاه کاربران میتوانند نظرات و تجربیات خود درباره هر محصول را با دیگران به اشتراک بگذارند. این نظرات در صفحه محصول قرار میگیرد و برای همه کاربران قابل مشاهده است.
دیجیکالا نظرات بامحتوای نامناسب و یا غیرمرتبط را فیلتر میکند. فرایند تایید یا رد نظرات در دیجیکالا در گذشته با نیروی انسانی انجام میشد. در این چالش شما باید مدلی طراحی کنید که به وسیله آن بتوانید نظرات دیجیکالا را رد و یا تایید کنید.
در این مسئله دو فایل در اختیار شما قرار گرفته است. این فایل هارا میتوانید از لینک زیر دانلود کنید.
(فایل آموزش در این مسئله و **مسئله پیشبینی امتیاز نظرات** یکسان است)
[DK-Comments](https://quera.ir/assignment/20120/download_problem_initial_project/66276/)
فایل اول که در اختیار شما قرار گرفته است، فایل **train_users.csv** است. از این فایل برای آموزش مدل خود استفاده کنید. این فایل دارای ستونهای زیر است:
+ **id**: شناسه هر نظر
+ **title**: عنوان نظر
+ **comment**: متن نظر
+ **advantages**: مزایای ذکر شده در نظر
+ **disadvantages**: معایب ذکر شده در نظر
+ **title_fa_product**: نام فارسی محصول
+ **title_fa_category**: نام فارسی رسته محصول
+ **is_buyer**: خریدار محصول بودن و یا نبودن کاربر نظر دهنده
+ **verification_status**: رد و تایید نظر
+ **rate**: امتیاز داده شده به کالا در نظر
ستون **id** شناسه اختصاصی هر نظر است.
ستون **title** عنوانی است که کاربر برای نظر نوشته است.
ستون **comment** متن هر نظر است.
ستون **advantages** مزایای ذکر شده کاربر برای محصول است.
ستون **disadvantages** معایب ذکر شده کاربر برای محصول است.
ستون **title_fa_product** نام فارسی محصول است.
ستون **title_fa_category** نام فارسی رسته محصول است.
ستون **verification_status** نشان دهنده رد شدن یا تایید شدن نظر است. اگر نظر تایید شده باشد مقدار ۱ و اگر رد شده باشد مقدار ۰ است.
ستون **rate** امتیاز متناظر هر نظر است که عددی بین ۰ تا ۱۰۰ است.
فایل دوم که در اختیار شما قرار گرفته است فایل **test_users.csv** است. این فایل دادههای تست مسئله است که با پیشبینی کردن تایید و یا رد آن امتیازات مسابقه را باید کسب کنید. این فایل دارای همان ستونهای بالا به جز **verification_status** و **rate** است.
شما باید برای دادههای تست پیشبینی کنید که آن نظر تایید شده و یا رد شده است. خروجی شما که بارگزاری خواهید کرد باید به شکل زیر باشد:
## خروجی نمونه
```
id,verification_status
0,0
1,1
2,1
3,0
4,1
5,1
6,1
7,0
…
```
این فایل دارای دو ستون **id** و **verification_status** است. شناسه نظرات این فایل، همان شناسه نظرات فایل تست است که به همان ترتیب و همان تعداد در این فایل باید قرار داشته باشد. مقدار **verification_status** در این فایل باید یه صورت صحیح و دارای مقادیر ۰ و یا ۱ باشد.
در این مسئله فقط فایل خروجی شما برای داوری ارسال میشود. پس آزاد هستید با هر زبان برنامه نویسی و هر متد دلخواه مسئله را حل کنید.
معیار امتیاز در این مسئله، امتیاز f1 خروجی شماست.
ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.