| فایل اولیهی پروژه را میتوانید از [این لینک](/contest/assignments/84381/download_problem_initial_project/308147/) دانلود کنید.|
| :--: |
شرکت پیشرو فینتک، «نکسوسپی» (*NexusPay*)، به سیستم پیشرفته و مبتنی بر هوش مصنوعی خود برای تشخیص تقلب افتخار میکند. مدلهای این شرکت بر روی میلیونها تراکنش آموزش دیدهاند و فعالیتهای متقلبانه را با دقتی چشمگیر شناسایی میکنند. با این حال، بخش مالی به تازگی متوجه یک ناهنجاری دائمی شده است: یک جریان کوچک و ثابت از تراکنشهای جعلی از زیر دست سیستم در میرود.
این «تراکنشهای شبح» (*fraud*) با الگوهای شناختهشده مطابقت ندارند. مبالغ آنها به طور غیرعادی بالا نیست، از کشورهای پرخطر سرچشمه نمیگیرند و هشدارهای رفتاری را که مدلهای فعلی ما برای شناسایی آنها طراحی شدهاند، فعال نمیکنند. گویی برای تحلیلهای رفتاری استاندارد ما نامرئی هستند.
شما به عنوان یک دانشمند داده در «پروژه سنتینل» استخدام شدهاید. مأموریت شما تجزیه و تحلیل یک مجموعه داده جدید است که جزئیات تراکنشها را با فرادادههای پردازش داخلی ترکیب میکند.
هدف شما ساخت یک مدل طبقهبندی است که بتواند تراکنشهای «شبح» را با **بالاترین دقت ممکن** شناسایی کند. هر درصد بهبود در دقت، از زیان مالی قابل توجهی برای شرکت جلوگیری میکند و تیمهای فعلی در رسیدن به یک راهحل بهینه به بنبست خوردهاند.
تئوری تیم داخلی داده این است که الگوی اصلی، در رفتار کاربر نیست، بلکه در **زیرساخت پردازشی** سیستم نهفته است. به همین دلیل، برخی از فرادادههای داخلی که گمان میرود کلید حل معما باشند، در این دیتاست گنجانده شدهاند.
<details class="yellow">
<summary>**دادگان**</summary>
مجموعه داده مورد استفاده شامل ویژگیهای جمعآوری شده از مشتریان است که عبارتاند از:
| *نام ستون (Column Name)* | *توضیح مختصر* |
|:----------------------------:|:-------------------------------------------------------------------------:|
| *processing_batch_id* | شماره_دسته_پردازش |
| *transaction_amount* | تعداد تراکنش |
| *user_age_days* | عمر حساب کاربر به روز |
| *ip_risk_score* | امتیاز ریسکی بودن ip |
| *transaction_speed_seconds* | تراکنش چند ثانیه طول میکشد؟ |
| *user_id* | آیدی کاربر |
| *product_category* | دستهبندی محصول |
| *payment_method* | روش پرداخت |
| *is_fraud* | ستون هدف (تراکنش شبح)
</details>
# ارزیابی
برای ارزیابی سیستم شما از فرمول زیر استفاده میگردد.
\[ \max(0, 100 \times (1 - \frac{\text{1 - Accuracy Score}}{0.01})) \]
> نکته: **فایل نهایی ارسالی برای این سوال، باید شامل دو ستون user_id , is_fraud رو باشد.**
ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.