در این سوال، شما به تحلیل رفتار مشتریان میپردازید.
دادگان
شما به دادگان تراکنشهای یک فروشگاه آنلاین موادغذایی از این لینک دسترسی دارید. در این سوال، به تمامی خریدهایی که یک مشتری در یک روز انجام میدهد، "سبد" میگوییم:
هر ردیف دادگان، سفارش یک نوع محصول توسط یک مشتری را طبق جدول زیر نشان میدهد:
نام ستون | توضیحات ستون |
---|---|
Customer Id | شناسه مشتری |
Date | تاریخ سفارش |
Product | نام محصول |
صورت مسئله
ابتدا با استفاده از این دادگان، به ۵ سوال اکتشافی زیر پاسخ دهید (مثال خروجی هر سوال، در زیر آن آورده شدهاست).
- تعداد محصولات یکتا در کل دادگان، چندتاست؟
1000
- میزان فروش به ازای هر روز به صورت میانگین چند است (تا دو رقم بعد از اعشار)؟
70.43
- چهار محصولی که کمتر از بقیه در سبد مشتریان قرار گرفتهاند، کدامند (ترتیب مهم نیست)؟
cake,apple,coffee,meat
- پنج مشتریای که در سال ۲۰۲۰، بیشترین تعداد "سبد" را داشتهاند، کدامند (ترتیب مهم نیست)؟
05XJ2SI7Z3KM,PZ2VNYRNH7UE,ZT6I3ZOEX9AP,IUMEKLUW51PE,HRZ5J6MERGJE
- کدام روز هفته، بیشترین تعداد محصول فروش رفتهاست؟
Friday
هر کدام از این ۵ سوال بالا، دارای ۲۰ امتیاز هستند (۱۰۰ امتیاز در مجموع).
حال، به تحلیل سبد خرید مشتریان که یکی از تکنیک های کلیدی، خرده فروشان بزرگ برای کشف ارتباط بین اقلام خریداری شدهاست، میپردازید و بدین منظور، از قوانین وابستگی استفاده خواهید کرد.
به عنوان مثال، با قانون وابستگی میتوان محاسبه کرد که اگر یک مشتری پیاز و سیب زمینی را در سبد خرید خود قرار داده باشد، با چه احتمالی، او مایل به خرید گوشت همبرگر نیز خواهد بود؟ چنین اطلاعاتی میتوانند در تصمیماتی مانند ارائه تخفیف، قراردادن محصولات در کنار هم و یا پکیج کردن آنها، تاثیر بگذارند.
راهنمایی
با مثال زیر، دو معیار قوانین وابستگی که در این سوال نیاز دارید، توضیح داده میشوند. فرض کنید که ۱۰۰ سبد دارید که ۱۰تای آنها شیر، ۸تای آنها کره و ۶ تای آنها هر دو را دارند.
معیار پشتیبانی (support
)، نشان می دهد که یک مجموعه محصول/محصولات چقدر محبوب است:
$$support(X) = \frac{Number:of:baskets:containing:product(s):X}{Number:of:all:baskets}$$
در مثال بالا، support(milk)
برابر است با ۰.۱ و support(milk,butter)
برابر است با ۰.۰۶
معیار اطمینان (confidence
)، نشان میدهد که هنگام خرید محصول/محصولات X
چقدر احتمال دارد که محصول/محصولات Y
خریداری شوند و از این امر به عنوان "الگو" یاد میکنیم:
$$confidence(X->Y)=\frac{support(X,Y)}{support(X)}$$
در مثال بالا، confidence(milk->butter)
برابر است با ۰.۶
به استفاده از معیارهای support
و confidence
، به دو سوال زیر پاسخ دهید (مثال خروجی هر سوال، در زیر آن آورده شدهاست):
- پنج محصولی که بیشترین
support
را دارند به ترتیب نزولی کدامند؟
cake,apple,coffee,meat,tomato
- از بین مواردی که
support
آنها، حداقل ۰.۰۱ میباشد. دو الگویی که بیشترینconfidence
را دارند، به ترتیب نزولی کدامند؟
("cake","potato")->("apple")|("coffee","soda")->("meat")
راهنمایی
شاید بتوانید که از الگوریتم آپریوری، برای حل سوالات تحلیل سبد خرید، استفاده کنید.
هر کدام از این ۲ سوال بالا، دارای ۵۰ امتیاز هستند (۱۰۰ امتیاز در مجموع) و در صورتی که به تمامی سوالات، این صفحه پاسخ صحیح دهید. شما بایستی که ۲۰۰ امتیاز کسب کنید.
ارسال پاسخ
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text
بنویسید. در نهایت یک فایل هفت خطی با نام output.txt را برای ما بارگذاری کنید (جواب سوال اول در خط اول، سوال دوم در خط دوم، ... سوال هفتم در خط هفتم).
در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.
نمونه خروجی
1000
70.43
cake,apple,coffee,meat
05XJ2SI7Z3KM,PZ2VNYRNH7UE,ZT6I3ZOEX9AP,IUMEKLUW51PE,HRZ5J6MERGJE
Friday
cake,apple,coffee,meat,tomato
("cake","potato")->("apple")|("coffee","soda")->("meat")
توضیحات
در خط i ام جواب سوال i ام نوشته شدهاست.
هشدار
اگر نام فایل شما و ساختار محتویات آن، همانند آنچه در صورت سوال ذکر شدهاست، نباشد؛ امتیازی از سوال دریافت نخواهید کرد.
ارسال پاسخ برای این سؤال