پلیس شهر هردمبیل با افزایش آمار جرم و جنایت در شهرهای تابعه مواجه شده است و به همین خاطر دست به دامان تکنولوژی روز برای بهبود عملکرد خود شدهاند. این واحد مجموعه دادههایی آماده کرده است که ستونهای آن به صورت زیر است:
| توضیح | ستون|
|--- |--- |
|این ستون موقعیت جغرافیای مکان تخلف را نشان میدهد| longitude/Latitude |
| زمان گزارش تخلف | Report time |
| توضیح اجمالی راجع به تخلف| Descript |
| واحد پلیسی که تخلف را پیگیری کرده است | police department |
| وضعیت جرم | resolved option |
| آدرس محل وقوع جرم | Address |
| تعداد واحدهای گشت که به محل اعزام شدهاند | number of units |
| زمان ثبت سیستمی جرم | register time|
این دادهها را میتوانیداز [اینجا](https://quera.ir/assignment/21631/download_problem_initial_project/78352/?noconvert=true) دانلود کنید.
رئیس پلیس به کمک نیروهای خود ستونی به نام target را ساختهاند که در آن هر جرم لیبل مخصوصی دارد و جرمها به دستههای مختلفی تقسیم شده اند. رئیس پلیس قصد دارد با استفاده از هوش مصنوعی و به کمک تکنولوژی وطنی سیستم لیبل خودکار برای دادههای دیگر درست کند. در این سوال فایل train شامل ستون target و فایل test بدون این ستون در اختیار شما قرار دارد. برای دادههای تست احتمال آنکه هر سطر متعلق به کدام کلاس است را ذکر کنید. نمونه فایل output.csv برای اپلود در اختیار شما قرار گرفته است. کافی است در ذیل هر ستون احتمال مربوط به آن را بنویسید. ترتیب ستونهای ارسالی باید عینا مانند فایل outputباشد.**در نهایت فایل output.csv را با zip کرده و با نام output.zip ارسال کنید.**
برای این سوال از تابع cross-entropy loss یا log loss استفاده میشود که در حالت دو کلاسه به شکل زیر تعریف می شود :
$$loss = y_t * log(y_p) + (1 - y_t) * log(1 - y_p) $$
$$ y_t = true\, label , y_p = prediction \, probability$$
برای جلوگیری از خطای محاسبه مقادیر صفر و یک را با 10e-5 و 1 - 10e-5 جایگزین میکنیم. امتیاز نهایی شما نیز از تابع زیر محاسبه میشود:
$$score = e^{(-0.9* ((2*loss)^{0.5}))} * 200$$
بنابراین هر چه loss پایینتری کسب کنید امتیاز شما بالاتر خواهد بود.
+دادههای خروجی شما یک بار نرمالایز خواهد شد. بنابراین نیازی نیست حتما به فرمت احتمالاتی خروجی ایجاد کنید.
+ترتیب ستونها باید مشابه ترتیب ستونها در فایل output باشد. پیشنهاد میشود از همان فایل استفاده کنید.
+طبیعتا این سوال رقابتی است و برای اینکه به امتیاز کامل برسید نیاز است تا loss برابر صفر داشته باشید!!!