فرض کنید قرار است خریدهای لازم برای انبار سوپرمارکت **دیجیکالا** را انجام دهید. با کمک دیتای ۴۰ روز گذشتهی فروش کالاهای سوپرمارکتی، باید مدلی طراحی کنید تا بتواند فروش ۳۰ روز آینده کالاها را پیشبینی کند. کالاهای انتخابشده دارای تاریخ انقضا هستند و میزان خرید آنها اهمیت ویژه دارد. با این اوصاف، کالاها اگر کمتر خریداری شوند فرصت فروش را از دست میدهیم و اگر زیاد خریده شوند در انبار خراب میشوند.
دو فایل دیتای train.csv و test.csv به ترتیب برای آموزش مدل و خروجی گرفتن برای ارسال پاسخ به ما برای ارزیابی استفاده میشوند. ستونهای دو فایل دیتا برابر هستند و فقط دیتای فروش ۳۰ روز آخر فایل test.csv با مقادیر 1- پر شدهاند که باید با مدلی که طراحی میکنید مقادیر آنها را پیشبینی کنید. کالاهایی که در فایل test.csv هستند با کالاهای train.csv متفاوتند و نیاز به طراحی یک مدل جنرال برای حل مساله وجود دارد. اگر ردیف روزی برای کالایی وجود ندارد، یعنی آن روز در سایت غیر موجود بوده است.
[دانلود فایل زیپ دیتا](https://quera.ir/contest/assignments/32898/download_problem_initial_project/110012/?noconvert=true)
ستونهای دیتا:
ستون 'date': تاریخ انجام خرید
ستون 'product_id': شناسهی کالا
ستون 'cat_id': شناسهی کتگوری کالا
ستون 'live_rate': ریت موجود بودن کالا در سایت. مثلا 0.5 یعنی کالا ۱۲ ساعت موجود بوده است و یک یعنی کل روز.
ستون 'score_mean': میانگین امتیاز کاربران به کالا
ستون 'score_count': تعداد امتیازدهندگان به کالای مورد نظر
ستون 'price_group': گروه قیمتی کالای مورد نظر؛ هر چه بیشتر باشد کالا گرانتر هست.
ستون 'discount_percentage': درصد تخفیف
ستون 'sold_count': میزان فروختهشده از کالای مورد نظر در روز مشخصشده.
خروجی نهایی باید شامل ستون تاریخ (date) − شناسه کالا (product_id) − میزان فروش پیشبینیشده (sold_count) باشد.
خرید برای انبار سوپرمارکت دیجیکالا