| فایل اولیهی دادگان آموزش را میتوانید از [این لینک](/contest/assignments/89137/download_problem_initial_project/303238/) دانلود کنید. |
|:-:|
در شناسایی ناهنجاری، هدف یافتن الگوهایی است که با رفتار معمول یا «عادی» دادهها سازگار نیستند. چنین ناهنجاریهایی ممکن است به خرابیهای تجهیز، خطای حسگر یا رویدادهای غیرمنتظره اشاره داشته باشند. روشهای بدونناظر فرض میکنند اکثر نمونهها عادی هستند و الگوریتمها نقاطی را که کمترین شباهت را با سایر دادهها دارند شناسایی میکنند.
### توضیحات داده
+ دادهها برای هر حسگر در قالب یک فایل ارائه شده است:
+ `SensorName_test.csv`
+ هر فایل شامل ستونهای `timestamp` و مقدار همان حسگر است.
+ برچسبی برای دادهها وجود ندارد (بدونناظر).
+ نرخ نمونهبرداری حسگرها متفاوت است (۱، ۲، ۵، ۱۰ یا ۱۵ ثانیه). برای تحلیل چندحسگری لازم است دادهها بر اساس `timestamp` همگامسازی شوند.
+ زمانها تغییر کردهاند، اما **ترتیب زمانی کاملاً حفظ شده است**.
### هدف
مدلی طراحی کنید که بر اساس الگوهای موجود در دادههای حسگرها، تشخیص دهد هر ردیف یک ناهنجاری است یا خیر. به عبارت دیگر، برای هر ردیف باید مقدار `1` (نشاندهندهی ناهنجاری) یا `0` (نشاندهندهی وضعیت عادی) پیشبینی شود. روشهای بدونناظر معمولاً با مدلسازی رفتار عادی آغاز میشوند و نقاط دورافتاده را به عنوان ناهنجاری گزارش میکنند.
### معیار ارزیابی
برای این سؤال از **امتیاز F1** برای ارزیابی دقت مدل استفاده میشود.
امتیاز شما به صورت زیر محاسبه میشود:
$$round(F1, 3) \times 100$$
<details class="red">
<summary>
**حداقل امتیاز**
</summary>
> اگر امتیاز F1 شما کمتر از ۰٫۵ باشد، نمرهٔ نهایی صفر خواهد بود.
</details>
<details class="red">
<summary>
**داده ارزیابی**
</summary>
مانند سایر مسائل، حین مسابقه تنها امتیاز حاصل از ۳۰ درصد دادهها به شما نمایش داده میشود و امتیاز نهایی بر روی ۷۰ درصد باقیمانده محاسبه میشود تا از بیشبرازش جلوگیری شود.
</details>
<details class="red">
<summary>
**خروجی مورد انتظار**
</summary>
خروجی شما باید دقیقاً به اندازهی تعداد ردیفهای فایلی باشد که بالاترین نرخ نمونهبرداری را دارد، زیرا برچسبها در همان نقاط زمانی تعریف میشوند.
</details>
### نحوه ارسال پاسخ
یک فایل `result.zip` ارسال کنید که شامل موارد زیر باشد:
1. **`submission.csv`**: شامل یک ستون به نام `prediction` که برای **تمام رکوردهای فایل train حسگری با بالاترین نرخ نمونهبرداری** مقدار پیشبینیشدهی ناهنجاری ثبت شده است (1 برای ناهنجاری و 0 برای عادی).
2. **`notebook.ipynb`**: نوتبوک شما که روند آمادهسازی داده (ادغام حسگرها بر اساس `timestamp`، مدیریت نرخ نمونهبرداری متفاوت و انتخاب ویژگیها)، مدلسازی بدونناظر و تولید خروجی را توضیح میدهد.
ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.