پیش‌بینی قیمت بر اساس اخبار


فایل اولیه‌ی سوال را می‌توانید از این لینک دانلود کنید.

درباره پیش‌بینی روند بازار ارزهای دیجیتال، می‌توان گفت که این روند به عوامل متعددی از جمله عوامل مرتبط با بازارهای جهانی و اطلاعات و اخبار روز بستگی دارد. تحلیل‌های تکنیکال (که الگوها و شاخص‌های قیمتی را بررسی می‌کنند) و تحلیل‌های بنیادی (که اخبار و رویدادهای اقتصادی و سیاسی را مورد بررسی قرار می‌دهند) دو روش مهم برای پیش‌بینی بازارهای رمزارزها هستند.

توجه‌ کنید که بازار ارزهای دیجیتال به دلیل پویایی و تأثیرگذاری عوامل غیرقابل پیش‌بینی مانند اخبار، تصمیمات حکومت‌ها و اتفاقات مهم در سطح جهان، معمولا نسبت به بازارهای سنتی بی‌نظمی بیشتری در روندشان دارند. بنابراین، پیش‌بینی‌های روند بازار هر چند می‌توانند اطلاعات مفیدی را فراهم کنند، اما باید با احتیاط و با در نظر گرفتن ریسک‌های بازارهای پویای رمزارزها مورد استفاده قرار گیرند.

در این سوال می‌خواهیم تاثیر اخبار موجود را روی یک ارز دیجیتال بررسی کنیم. برای بررسی این موارد ما به شما سرتیتر اخبار و تاثیرات آن را روی یک رمزارز را در یک بازه زمانی خاص داده‌ایم. و از شما می‌خواهیم ستون Label را برای روز‌های آینده پیش‌بینی کنید.

مجموعه‌داده🔗

مجموعه‌داده‌ای که در این سوال در اختیارتان قرار گرفته شامل ستون‌های زیر است:

ستون توضیحات
Date تاریخ روز معاملاتی
Top 1-25 سرتیترهای اخبار مربوط به آن روز
Label عدد 0 یا 1
  • توجه: اگر قیمت تعدیل‌شده در روز معاملاتی از روز قبلش بیشتر باشد مقدار ستون Label، 1 و اگر از روز قبلش کمتر باشد، 0 خواهد بود.

خواسته‌ی نهایی🔗

در این سوال باید مقدار ستون Label را با استفاده از مدل‌های یادگیری ماشین برای ۴۰۰ روز معاملاتی بعد پیش‌بینی کنید.

ارزیابی🔗

برای ارزیابی مدل شما از معیار ‍‍F1 Score استفاده می‌شود و مدل میانگین‌گیری نیز به صورت Weighted است.

توجه

در طول مسابقه امتیازی که مشاهده می‌کنید، فقط نتیجه‌ی F1 Score روی ۳۰ درصد از فایلی است که برای کوئرا آپلود می‌کنید. بعد از پایان زمان مسابقه، امتیاز نهایی شما روی ۷۰ درصد مابقی محاسبه می‌شود.

این کار به منظور جلوگیری از overfitting و حفظ عمومیت مدل انجام می‌شود تا مطمئن شویم مدل‌هایی که دچار بیش‌برازش شده‌اند، در امتیازهی نهایی، افت می‌کنند.

خروجی سوال🔗

پیش‌بینی‌های خود را باید به‌ترتیب در یک ستون با نام prediction به‌صورت یک فایل csv با نام submission.csv که شامل یک ستون با نام prediction است ذخیره کنید.

نمونه خروجی🔗

prediction
0
1
0
1
0
نکات مهم درمورد فایل ارسالی
  • توجه ۱: توجه کنید که ستون گفته شده حتما دارای header باشد.
  • توجه ۲: مراقب باشید در فایل نهایی اندیس ذخیره نشود و فقط یک ستون prediction باشد.
  • توجه ۳: اعداد ستون prediction صرفاً برای مثال گذاشته شده‌اند و پاسخ صحیح نیستند‍‍!
هشدار

فراموش نکنید که قبل از پایان زمان مسابقه، باید تمامی کد‌های این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این‌صورت، شما از این مسابقه، امتیازی کسب نمی‌کنید.

توجه داشته باشید که اگر از jupter notebook استفاده می‌کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py را دریافت و برای ارسال در نظر بگیرید. ارسال فایل‌های jupyter همانند ‍‍.ipynb مورد قبول نیستند.