## معرفی دادهها
دادههای این مسابقه مربوط به مجموعهای از **حسگرهای صنعتی** هستند که بر روی تجهیزات بزرگ مانند پمپها، توربینها و کمپرسورها نصب شدهاند. این حسگرها کمیتهایی نظیر **دما، فشار، ارتعاش، جریان و ولتاژ** را در طول زمان ثبت میکنند تا امکان پایش سلامت و عملکرد تجهیزات فراهم شود. هدف کلی مسابقه، طراحی مدلها و الگوریتمهایی است که بتوانند بر اساس این دادهها، خطاها را تشخیص دهند، الگوهای غیرعادی را بیابند یا عمر باقیمانده تجهیزات را پیشبینی کنند.
## ساختار کلی دادهها
اطلاعات هر حسگر برای هر سوال در فایل مربوطه با نام حسگر ارائه شده است:
ویژگیهای کلیدی دادهها:
+ ستون **`timestamp`** نشاندهندهی زمان ثبت داده است (مرتبشده به صورت صعودی).
+ ستون دوم مقدار همان حسگر را در هر لحظه ذخیره میکند.
+ در نسخهی **train**، در صورتی که برچسب وجود داشته باشد، تنها در سنسوری ذخیره شده که **بیشترین نرخ نمونهبرداری** را دارد.
+ نسخهی **test** فاقد برچسب است.
+ زمان در کل دادهها تغییر کرده اما **ترتیب زمانی حفظ شده است**.
### نرخ نمونهبرداری حسگرها
هر حسگر با **نرخ نمونهبرداری (Sampling Rate)** متفاوتی داده تولید میکند. این نرخ نشان میدهد که هر چند ثانیه یک بار مقدار حسگر ثبت میشود.
| نام حسگر | واحد اندازهگیری | نرخ نمونهبرداری (هر چند ثانیه یکبار) | توضیحات |
| ---------------- | ---------------- | ------------------------------------- | ---------------- |
| Temperature_C | °C | 1 | دمای تجهیز |
| Pressure_kPa | kPa | 2 | فشار سیال |
| VibAccel_m_s2 | m/s² | 10 | شتاب ارتعاش |
| VibVelocity_mm_s | mm/s | 5 | سرعت ارتعاش |
| BearingTemp_C | °C | 10 | دمای یاتاقان |
| FlowRate_L_min | L/min | 15 | نرخ جریان سیال |
| Humidity_pct | % | 5 | رطوبت محیط |
| OilLevel_cm | cm | 15 | سطح روغن |
| pH_units | – | 10 | اسیدیته سیال |
| Power_kW | kW | 1 | توان الکتریکی |
| Speed_RPM | RPM | 2 | سرعت دورانی |
| Torque_Nm | N·m | 5 | گشتاور محور |
| VibDisp_mm | mm | 15 | جابهجایی ارتعاش |
| Voltage_V | V | 2 | ولتاژ تغذیه |
## ⚠️ نکات مهم
+ خروجی هر مسئله باید با ساختار داده منطبق باشد؛ بهطور خاص، برای فایلهای **test**، خروجی باید به اندازهی تعداد ردیفهای حسگری باشد که بالاترین نرخ نمونهبرداری را دارد، چراکه برچسبها در همان نقاط زمانی تعریف میشوند.
+ به دلیل متفاوت بودن نرخ نمونهبرداری، دادههای سنسورها بهصورت طبیعی همتراز نیستند. هنگام ادغام، باید همگامسازی بر اساس `timestamp` انجام شود.
+ وجود مقادیر گمشده (`NaN`) در برخی حسگرها طبیعی است و باید در پیشپردازش مدیریت شوند.
+ به دلیل تغییر نرخ و بازههای زمانی، چالش قابل توجه در این دادهها **یکپارچهسازی زمانی** و مدیریت اختلاف نرخ نمونهبرداری است.