واقعا واقعی


یکی از توانایی‌های مهم یک دانشمند داده، یافتن روابط موجود در داده‌ها و استفاده از آن‌ها برای پیشبینی ویژگی‌های مختلف است.

داده‌های زیر مربوط به تعدادی از افراد در کشوری خارجی است. موارد مختلفی همچون سن، تعداد فرزند، مدت زمان گذشته از شروع شغل افراد، ارزش کالاهای تحت مالکیت و... از افراد به دست آمده‌است. هدف، پیشبینی میزان درآمد افراد (TOTAL INCOME) می‌باشد.

داده‌هایی برای آموزش در اختیارتان قرار داده شده است. این داده‌ها در فایل train.csv قرار دارند. شما می‌توانید با ارزیابی مدل خود بر روی داده‌های اعتبارسنجی (موجود در validation.csv) و بارگذاری خروجی، امتیازتان را مشاهده فرمائید. فایل‌های مذکور را می‌توانید از این لینک دریافت نمائید.

دو ساعت به پایان زمان مسابقه، داده‌های سنجش در اختیار شما قرار خواهند گرفت. خطای بین خروجی بارگذاری شده توسط شما برای داده‌ی سنجش و درآمد واقعی افراد معیار رتبه‌بندی نهایی خواهد بود. بنابراین امتیاز شما در طول مسابقه که بر اساس داده‌ی اعتبارسنجیست، ملاک ارزیابی نهایی نیست.

توضیح مختصری از ستون‌های موجود در داده‌ها

جنسیت (GENDER): در این ستون F نماینده‌ی جنسیت زن و M نماینده‌ی جنسیت مرد می‌باشد.

مالک خودرو (OWN CAR): بیان می‌کند که آیا فرد مورد نظر ماشین شخصی دارد (Y) یا خیر (N).

مالک ملک (OWN REALTY): بیان می‌کند که آیا فرد صاحب خانه هست (Y) یا خیر (N).

تعداد فرزندان (NUM OF CHILDREN): تعداد فرزندان فرد را نشان می‌دهد.

ارزش کالاهای تحت مالکیت (GOODS VALUE): مجموع مبلغ کالاهای فرد را نشان می‌دهد.

نوع درآمد (INCOME TYPE): بیانگر شیوه‌ی درآمد فرد می‌باشد.

تحصیلات (EDUCATION): سطح تحصیلات فرد را نشان می‌دهد.

وضعیت تأهل (FAMILY STATUS): بیانگر وضعیت ازدواج فرد است.

وضعیت مسکن (HOUSING TYPE): وضعیت مسکن فردا را نشان می‌دهد.

تعداد روزها تا ولادت (DAYS TO BIRTH): تعداد روزها تا ولادت فرد را نشان می‌دهد. چون این تاریخ زمانی در گذشته است، مقادیر معتبر این ستون منفی می‌باشند.

تعداد روزها تا استخدام (DAYS TO EMPLOYED): تعداد روزها تا شروع کار فرد. چون این تاریخ زمانی در گذشته است، مقادیر معتبر این ستون منفی می‌باشند.

تعداد اعضای خانواده (NUM OF FAMILY MEMBERS): تعداد اعضای خانواده‌ی فرد را نشان می‌دهد.

تفاوت محل زندگی و کار فرد (IS LIVE CITY NOT WORK CITY): در صورتی که محل زندگی و کار فرد متفاوت باشد، این مقدار یک و در غیر این صورت صفر خواهد بود.

نوع سازمان کار (ORGANIZATION TYPE): نوع سازمانی که فرد در آن مشغول به کار است را نشان می‌دهد.

دقت کنید که داده‌ها ممکن است شامل نویزهایی باشند و مقادیر نامعتبری در آن‌ها وجود داشته باشد!

تابع امتیاز🔗

امتیاز شما در طول مسابقه بر اساس تابع زیر محاسبه می‌گردد:

1.1×(67000MAE)/1101.1\times(67000-MAE)/110

که در آن MAEMAE برابر میانگین قدر مطلق خطا بین خروجی شما و درآمد کل واقعی افراد می‌باشد. اگر این مقدار از ۱۱۰ بیشتر شد، امتیاز شما ۱۱۰ و اگر از ۰ کمتر شد، ۰ نمایش داده می‌شود.

این امتیاز صرفا برای اطلاع از میزان دقت خروجیتان داده می‌شود و تاثیری در نمره‌ی نهایی ندارد. در طول مسابقه و بر حسب عملکرد شرکت‌کنندگاه ممکن است رابطه‌ی بالا تغییر یابد تا شرکت‌کنندگان ارزیابی دقیق‌تری از عملکردشان در این سوال داشته باشند.

نمره‌ی نهایی🔗

نمره‌دهی نهایی براساس رتبه‌بندی نهایی تعیین می‌گردد. پس از اتمام مسابقه و محاسبه‌ی خطای بر روی داده‌ی سنجش، شرکت‌کنندگان به صورت صعودی در رتبه‌های اول تا آخر برای این سوال قرار می‌گیرند. نمره‌ی شرکت‌کننده‌ی رتبه‌ی i-iام براساس فرمول زیر محاسبه می‌گردد:

2200/(i+19)2200/(i + 19)

که در آن رتبه‌ی شرکت‌کننده‌ی اول، یک در نظر گرفته می‌شود.

تابع خطا در محاسبه‌ی نمره‌ی نهایی، میانگین قدرمطلق خطا بین خروجی شما برای درآمد افراد در داده‌ی سنجش و درآمد کل واقعی افراد است.

برای مثال نمره‌ی شرکت‌کننده‌ای که کمترین میزان خطا را داشته باشد ۱۱۰ و نفر سوم ۱۰۰ خواهد بود.

خروجی🔗

شما بایستی فایل فشرده‌ی زیپ شامل خروجی‌های خود را بارگذاری کنید.

پیشبینی خود برای داده‌ی اعتبارسنجی و سنجش را به ترتیب در فایل‌هایی به نام validation_output.txt و test_output.txt قرار دهید. در طول مسابقه، سیستم داوری امتیاز شما بر روی داده‌ی اعتبارسنجی را نمایش خواهد داد و فایل test_output.txt در این امتیاز نظر گرفته نمی‌شود. پس از اتمام آزمون، فایل test_output.txt موجود در ارسال نهایی شما بررسی می‌شود و ملاک رتبه‌بندی نهایی قرار خواهد گرفت و فایل validation_output.txt تاثیری در نتیجه نخواهد.

هر دوی این فایل‌ها، بایستی دنباله‌ای از اعداد باشند؛ به طوری که در هر خط یک عدد قرار دارد. عدد خط اول پیشبینی شما از درآمد کل (TOTAL INCOME) فرد اول در فایل متناظر، عدد دوم برای فرد دوم در فایل متناظر و... .

یادآوری می‌شود که داده‌های اعتبارسنجی در validation.csv و داده‌های سنجش در test.csv را می‌توانید از اینجا دریافت کنید. (داده‌های سنجش دو ساعت به پایان مسابقه به داده‌های همین لینک اضافه خواهند شد و پیش از آن در دسترس نخواهند بود.)