دیجیکالا، بزرگترین فروشگاه اینترنتی ایران، امکان خرید و بررسی طیف متنوعی از محصولات را برای کاربران فراهم میکند. در این فروشگاه کاربر می تواند درباره محصولاتی که خریداری کرده و یا اطلاعاتی درباره آنها دارد، نظر خود را منتشر کند و دیگران از تجربه آن کاربر استفاده کنند. در این میان ممکن است نظراتی وجود داشته باشند که برای انتشار نامناسب باشند و باید فیلتر شوند. در این مسئله شما باید به وسیله الگوریتمهای یادگیری ماشین، رد و یا تایید شدن نظرات در دیجیکالا را پیش بینی کنید.
فایل دادههای آموزش و ارزیابی مسئله را از لینک زیر میتوانید دانلود کنید
هر دو فایلها در قالب csv برای شما فراهم شده اند.
دادههای آموزش دارای چهار ستون است که به توضیح آنها میپردازیم.
فایل ارزیابی نیز شامل همه موارد بالا به جز verification_status میباشد.
برای ارزیابی نیازی به کد شما نیست. در نتیجه میتوانید از هر زبان برنامه نویسی که مایل هستید استفاده نمایید. در پایان شما باید یک فایل csv آپلود کرده باشید که به فرمت زیر است:
این فایل دارای ۲ ستون است. ستون اول id نظرات است که ارزیابی شده اند و باید همه id های فایل verification.csv در آن آورده شده باشد. ستون دوم verification_status است و همانند تعریفی که ارائه شد، باید با مقادیر ۰ یا ۱ پر شود.