فرض کنید نظراتی که برای هر کالا در دیجیکالا ثبت می‌شود، این قابلیت را داشته باشد که با توجه به موضوع کلی آن از بقیه نظرات تفکیک شود. مثلا اگر کاربری می‌خواهد راجع به طعم یک پودر کیک بداند، بتواند فقط نظراتی که در مورد «طعم» کالای مورد نظر ثبت شده‌اند را بخواند و نیاز به بررسی همه‌ی نظرات نداشته باشد. دیتاستی که در اختیار شما قرار گرفته، چند ستون دارد که می‌توانند به عنوان ویژگی استفاده شوند: + **id**: شناسه هر نظر + **comment**: محتوای نظر ثبت شده + **product_id**: شناسه‌ی کالایی محصول مورد نظر + **product_title_fa**: عنوان کالایی محصول مورد نظر + **category_id**: شناسه‌ی گروه کالایی محصول مورد نظر + **category_title_fa**: عنوان گروه کالایی محصول مورد نظر + **is_buyer**: خریدار بودن یا نبودن شخصی که نظر ثبت کرده هم‌چنین ستون‌هایی که باید توسط مدل پیش‌بینی شوند هم عبارتند از: + **price_value**: اعلام نظر در مورد ارزش خرید کالا + **fake_originality**: اظهارنظر در مورد اصالت کالا + **warranty**: اشاره به خدمات پس از فروش + **size**: نظر دادن در مورد ابعاد محصول + **discrepancy**: اشاره به عدم تطابق اطلاعات کالا با واقعیت و یا عدم تطابق کالای سفارش‌داده‌شده با کالای دریافتی + **flavor_odor**: اظهارنظر در مورد عطر و بو و رایحه و یا طعم محصول + **expiration_date**: اشاره به تاریخ انقضا توجه کنید که در این مسئله هر نظر می‌تواند «هیچ» موضوعی نداشته باشد و یا چندین موضوع را در بر داشته باشد. فایل **train.csv** فایل اولی‌ست که در اختیار شما قرار گرفته است. از این فایل برای آموزش مدل استفاده کنید و از فایل دوم یعنی **test.csv** که ستون‌های هدف در آن حذف شده‌اند هم برای انجام تست مدلی که پیشنهاد می‌دهید استفاده کنید. در نهایت خروجی مورد نظر باید در قالب فایل csv با ستون‌هایی که به‌صورت زیر نشان داده شده‌اند آپلود شوند. فراموش نکنید که حتماً ستون **id** در فایل‌تان وجود داشته باشد و نام ستون‌هایی که مربوط به لیبل‌ها می‌شوند به درستی نوشته شده باشند. ## خروجی نمونه ``` id,price_value,fake_originality,warranty,size,discrepancy,flavor_odor,expiration_date 0,0,1,1,0,0,1,0 1,1,1,1,0,1,0,0 2,1,0,1,1,0,0,0 3,0,0,0,0,0,0,0 4,1,0,1,1,0,1,1 5,1,1,1,0,1,0,1 6,1,0,0,1,0,0,1 7,0,0,1,0,0,0,1 … ``` این فایل دارای هشت ستون **id** و **price_value** و **fake_originality** و **warranty** و **size** و **discrepancy** و **flavor_odor** و **expiration_date** است. شناسه نظرات این فایل، همان شناسه نظرات فایل تست است که به همان ترتیب و همان تعداد در این فایل باید قرار داشته باشد. مقدار سایر ستون‌ها که همان لیبل‌ها هستند، در این فایل باید یه صورت صحیح و دارای مقادیر ۰ و یا ۱ باشد. در این مسئله فقط فایل خروجی شما برای داوری ارسال می‌شود. پس آزاد هستید با هر زبان برنامه نویسی و هر متد دلخواه مسئله را حل کنید. معیار امتیاز در این مسئله، امتیاز f1 خروجی شماست. [دانلود دیتا](https://quera.ir/contest/assignments/32898/download_problem_initial_project/110025/?noconvert=true)

تشخیص موضوع نظرات

ارسال پاسخ برای این سؤال

در حال حاضر شما دسترسی ندارید.