| فایل نمونهٔ داده را میتوانید از [این لینک](/contest/assignments/89137/download_problem_initial_project/303234/) دانلود کنید. |
| :---------: |
در این سؤال بهجای دستهبندی یا پیشبینی، باید محاسبات آماری **پیشرفتهتری** روی بخشی از همان دادههای سنسوری پمپ انجام دهید. فایل `statistical_analysis_data.csv` شامل ۱٬۰۰۰ رکورد از همان دادههاست و ستونهای سنسورها، برچسب و ستون `RUL_seconds` را در بر میگیرد.
### توضیحات داده
+ **`statistical_analysis_data.csv`**: شامل ستونهای `timestamp`, `Temperature_C`, `Pressure_kPa`, `VibAccel_m_s2`, `VibVelocity_mm_s` و ستونهای برچسب و `RUL_seconds` است.
+ تنها ۱٬۰۰۰ سطر اول داده انتخاب شدهاند تا بتوانید محاسبات را انجام دهید.
### هدف
باید **۳۲ مقدار** به ترتیب زیر محاسبه و هرکدام را در یک خط جداگانه چاپ کنید. مگر جایی که «خام/بدون وینسور» تصریح شده، همهٔ محاسبات روی نسخهٔ **وینسورشده** (Winsorized)ی هر سنسور انجام میشوند:
<details class="blue">
<summary>
**تعریف وینسور**
</summary>
برای هر سنسور، صدکهای ۱٪ و ۹۹٪ با `interpolation='linear'` محاسبه و سپس با `clip` داده به بازهٔ [p1, p99] محدود شود.
</details>
<details class="olive">
<summary>
**میانگین**
</summary>
هر یک از چهار سنسور به ترتیب: دما، فشار، شتاب ارتعاش، سرعت ارتعاش (۴ مقدار)
</details>
<details class="olive">
<summary>
**انحراف معیار نمونهای**
</summary>
(`std` با `ddof=1`) برای همین سنسورها و همان ترتیب (۴ مقدار)
</details>
<details class="olive">
<summary>
**کمینه و بیشینهٔ خام (بدون وینسور)**
</summary>
برای هر سنسور و به ترتیب:
(min دما، max دما، min فشار، max فشار، min شتاب، max شتاب، min سرعت، max سرعت) (۸ مقدار)
</details>
<details class="olive">
<summary>
**ضریب همبستگی پیرسون**
</summary>
بین تمام جفتهای ممکن سنسورها (روی نسخهٔ وینسورشده و با حذف جفتهای NaN بهصورت pairwise):
(دما، فشار)، (دما، شتاب)، (دما، سرعت)، (فشار، شتاب)، (فشار، سرعت)، (شتاب، سرعت) (۶ مقدار)
</details>
<details class="olive">
<summary>
**میانه**
</summary>
برای هر سنسور (وینسورشده) به همان ترتیب استاندارد سنسورها (۴ مقدار)
</details>
<details class="olive">
<summary>
**خودهمبستگی با وقفهٔ ۱ (lag=1)**
</summary>
برای هر سنسور (وینسورشده) به همان ترتیب (۴ مقدار)
</details>
<details class="olive">
<summary>
**نرخ NaN**
</summary>
سهم ردیفهایی که **حداقل یکی** از چهار سنسورشان NaN دارد (روی دادهٔ خام) (۱ مقدار)
</details>
<details class="olive">
<summary>
**میانهٔ فاصلهٔ نمونهبرداری (ثانیه)**
</summary>
ستون timestamp را صعودی مرتب کنید، اختلاف زمانی متوالی را محاسبه کرده، مقادیر مثبت را نگه دارید و میانهٔ آنها را بر حسب ثانیه گزارش کنید (۱ مقدار)
</details>
### ⚠️ نکات مهم
+ خروجی **حتماً** باید دقیقاً با **۶ رقم اعشار** چاپ شود.
+ برای وینسور، صدکهای ۱٪ و ۹۹٪ باید با `interpolation='linear'` محاسبه شوند.
+ برای `std` از **نمونهای** (`ddof=1`) استفاده کنید.
+ برای **همبستگی پیرسون**، پس از وینسور، محاسبه بر پایهٔ حذف سطریِ **pairwise** انجام شود.
+ **کمینه/بیشینه** در بخش (۳) باید روی دادهٔ **خام** (بدون وینسور) محاسبه شوند.
+ در **lag-1 autocorr** از دادهٔ وینسورشده استفاده کنید.
+ ترتیب چاپ مقادیر **دقیقاً** همان ترتیبی است که در بالا آمده (جمعاً ۳۲ خط).
### معیار ارزیابی
هر مقدار خروجی با مقدار مرجع مقایسه میشود و اگر اختلاف نسبی آن کمتر از `1e-3` باشد، امتیاز کامل به آن مقدار تعلق میگیرد. امتیاز نهایی، میانگین امتیاز تمام ۳۲ مقدار است.
### نحوه ارسال پاسخ
یک فایل `result.zip` ارسال کنید که شامل:
1. **`submission.csv`**: حاوی **۳۲ خط** با عنوان prediction (نام ستون) که در هر خط یکی از مقادیر ذکرشده با **۶ رقم اعشار** نوشته شده است.
2. **`notebook.ipynb`**: نوتبوکی که نحوهٔ خواندن داده، پیشپردازش، محاسبات و تولید خروجی را با سلولهای جداگانه برای هر بخش توضیح دهد.