یکی از تواناییهای مهم یک دانشمند داده، یافتن روابط موجود در دادهها و استفاده از آنها برای پیشبینی ویژگیهای مختلف است.
دادههای زیر مربوط به تعدادی از افراد در کشوری خارجی است. موارد مختلفی همچون سن، تعداد فرزند، مدت زمان گذشته از شروع شغل افراد، ارزش کالاهای تحت مالکیت و... از افراد به دست آمدهاست. هدف، پیشبینی میزان درآمد افراد (TOTAL INCOME) میباشد.
دادههایی برای آموزش در اختیارتان قرار داده شده است. این دادهها در فایل `train.csv` قرار دارند. شما میتوانید با ارزیابی مدل خود بر روی دادههای اعتبارسنجی (موجود در `validation.csv`) و بارگذاری خروجی، امتیازتان را مشاهده فرمائید. فایلهای مذکور را میتوانید از [این لینک](/problemset/assignments/4367/download_problem_initial_project/68272/) دریافت نمائید.
دو ساعت به پایان زمان مسابقه، دادههای سنجش در اختیار شما قرار خواهند گرفت. **خطای بین خروجی بارگذاری شده توسط شما برای دادهی سنجش و درآمد واقعی افراد معیار رتبهبندی نهایی خواهد بود**. بنابراین امتیاز شما در طول مسابقه که بر اساس دادهی اعتبارسنجیست، ملاک ارزیابی نهایی نیست.
**توضیح مختصری از ستونهای موجود در دادهها**
جنسیت (*GENDER*): در این ستون *F* نمایندهی جنسیت زن و *M* نمایندهی جنسیت مرد میباشد.
مالک خودرو (*OWN CAR*): بیان میکند که آیا فرد مورد نظر ماشین شخصی دارد (*Y*) یا خیر (*N*).
مالک ملک (*OWN REALTY*): بیان میکند که آیا فرد صاحب خانه هست (*Y*) یا خیر (*N*).
تعداد فرزندان (*NUM OF CHILDREN*): تعداد فرزندان فرد را نشان میدهد.
ارزش کالاهای تحت مالکیت (*GOODS VALUE*): مجموع مبلغ کالاهای فرد را نشان میدهد.
نوع درآمد (*INCOME TYPE*): بیانگر شیوهی درآمد فرد میباشد.
تحصیلات (*EDUCATION*): سطح تحصیلات فرد را نشان میدهد.
وضعیت تأهل (*FAMILY STATUS*): بیانگر وضعیت ازدواج فرد است.
وضعیت مسکن (*HOUSING TYPE*): وضعیت مسکن فردا را نشان میدهد.
تعداد روزها تا ولادت (*DAYS TO BIRTH*): تعداد روزها تا ولادت فرد را نشان میدهد. چون این تاریخ زمانی در گذشته است، مقادیر معتبر این ستون منفی میباشند.
تعداد روزها تا استخدام (*DAYS TO EMPLOYED*): تعداد روزها تا شروع کار فرد. چون این تاریخ زمانی در گذشته است، مقادیر معتبر این ستون منفی میباشند.
تعداد اعضای خانواده (*NUM OF FAMILY MEMBERS*): تعداد اعضای خانوادهی فرد را نشان میدهد.
تفاوت محل زندگی و کار فرد (*IS LIVE CITY NOT WORK CITY*): در صورتی که محل زندگی و کار فرد متفاوت باشد، این مقدار یک و در غیر این صورت صفر خواهد بود.
نوع سازمان کار (*ORGANIZATION TYPE*): نوع سازمانی که فرد در آن مشغول به کار است را نشان میدهد.
دقت کنید که دادهها ممکن است شامل نویزهایی باشند و مقادیر نامعتبری در آنها وجود داشته باشد!
# تابع امتیاز
امتیاز شما **در طول مسابقه** بر اساس تابع زیر محاسبه میگردد:
$$1.1\times(67000-MAE)/110$$
که در آن $MAE$ برابر *میانگین قدر مطلق خطا* بین خروجی شما و درآمد کل واقعی افراد میباشد. **اگر این مقدار از ۱۱۰ بیشتر شد، امتیاز شما ۱۱۰ و اگر از ۰ کمتر شد، ۰ نمایش داده میشود.**
**این امتیاز صرفا برای اطلاع از میزان دقت خروجیتان داده میشود و تاثیری در نمرهی نهایی ندارد.** در طول مسابقه و بر حسب عملکرد شرکتکنندگاه ممکن است رابطهی بالا تغییر یابد تا شرکتکنندگان ارزیابی دقیقتری از عملکردشان در این سوال داشته باشند.
# نمرهی نهایی
نمرهدهی نهایی براساس رتبهبندی نهایی تعیین میگردد. پس از اتمام مسابقه و محاسبهی خطای بر روی دادهی سنجش، شرکتکنندگان به صورت صعودی در رتبههای اول تا آخر برای این سوال قرار میگیرند. نمرهی شرکتکنندهی رتبهی $-i$ام براساس فرمول زیر محاسبه میگردد:
$$2200/(i + 19)$$
که در آن رتبهی شرکتکنندهی اول، یک در نظر گرفته میشود.
تابع خطا در محاسبهی نمرهی نهایی، *میانگین قدرمطلق خطا* بین خروجی شما برای درآمد افراد در دادهی سنجش و درآمد کل واقعی افراد است.
برای مثال نمرهی شرکتکنندهای که کمترین میزان خطا را داشته باشد ۱۱۰ و نفر سوم ۱۰۰ خواهد بود.
# خروجی
شما بایستی فایل فشردهی زیپ شامل خروجیهای خود را بارگذاری کنید.
پیشبینی خود برای دادهی اعتبارسنجی و سنجش را به ترتیب در فایلهایی به نام **`validation_output.txt`** و **`test_output.txt`** قرار دهید. در طول مسابقه، سیستم داوری امتیاز شما بر روی دادهی اعتبارسنجی را نمایش خواهد داد و فایل `test_output.txt` در این امتیاز نظر گرفته نمیشود. پس از اتمام آزمون، فایل `test_output.txt` موجود در ارسال نهایی شما بررسی میشود و ملاک رتبهبندی نهایی قرار خواهد گرفت و فایل `validation_output.txt` تاثیری در نتیجه نخواهد.
هر دوی این فایلها، بایستی دنبالهای از اعداد باشند؛ به طوری که در هر خط یک عدد قرار دارد. عدد خط اول پیشبینی شما از درآمد کل (*TOTAL INCOME*) فرد اول در فایل متناظر، عدد دوم برای فرد دوم در فایل متناظر و... .
یادآوری میشود که دادههای اعتبارسنجی در `validation.csv` و دادههای سنجش در `test.csv` را میتوانید از [اینجا](https://quera.ir/assignment/20421/download_problem_initial_project/67781/?noconvert=true) دریافت کنید. (دادههای سنجش دو ساعت به پایان مسابقه به دادههای همین لینک اضافه خواهند شد و پیش از آن در دسترس نخواهند بود.)