در سال ۲۱۰۳ میلادی، یک گیاهشناس به نام «ادریس محقق» مسئولیت پروژهای برای بررسی تاثیرات تغییرات اقلیمی، روی پوشش گیاهی یک منطقهی وسیع و دورافتاده- که تصور میشود، گونههای گیاهی نادر و در معرض خطری در آن وجود داشته باشد- را بر عهده میگیرد. اما درست قبل از عقد قرارداد و در کشاکش بررسیهای اولیه، بزرگترین سرمایهگذار در پروژه، به علت تغییر تیم مدیریتی، تصمیم به کاهش مقدار قابل توجهی از مبلغ سرمایهگذاری خود در پروژه را میگیرد، به طوری که پیگیری پروژه به شکل پیشین- یعنی ارسال تیمهای متخصص و رباتهای نمونهبردار برای بررسیهای میدانی- قابل ادامه نخواهد بود. نتایج بررسیهای اولیه امیدوارکننده است، اما در صورت انتظار برای پیدا کردن سرمایهگذار جدید، به علت پایان فصل مناسب تحقیق، پروژه ممکن است تا یکسال به تعویق بیافتد!
ادریس که به این سادگیها خیال کوتاه آمدن ندارد، بعد از کمی بررسی متوجهی رونق زنبورداری در آن منطقه میشود و با جستوجویی کوتاه در «دانشنامهی دیتاهای سرگردان» به پروژهای با عنوان «زنبورها برای خلق» در شوروی سابق برمیخورد که در آن با هدف پیشروی بلوک شرق از بلوک غرب در تولید عسل، تعداد زیادی از گونههای گیاهی به عنوان منبع غذایی اصلی زنبورها مورد آزمایش قرار گرفته و **۲۵۶** ویژگی از ویژگیهای فیزیکی (مانند رنگ، گرانروی و...) و شیمیایی (مانند غلظت قندها و پروتئینهای مختلف و...) عسل تولیدی از آنها هر یک به صورت عددی حقیقی ثبت شده بود. ادریس با کمی بررسی بیشتر، درمییابد که از بین ۲۴۲ گونهای که در پیشنهاده پژوهشی اولیهی پروژهاش وجود دارد، **۲۰۰** عدد از آن گیاهان در لیست گیاهان مورد بررسی در پروژهی «زنبورها برای خلق» وجود دارد.
ادریس و همکاراناش، بلافاصله مشغول به آماده کردن دیتاستی مرتبط با نیازشان از نتایج پروژهی «زنبورها برای خلق» و جمعآوری ویژگیهای نمونهی عسل از کندوهای منطقه و مناطق مجاور میکنند، که نتایجاش در توضیحات زیر موجود است. با استفاده از این دادهها به تیم کوچک آنها در پیدا کردن مدلی برای تشخیص منبع اصلی تغذیهی زنبورها کمک کنید. ادریس از نتایج بهترین مدل برای جستوجوی هدفمندتر و کم هزینهتر گیاهان مورد نظرش استفاده خواهد کرد.
# دیتاست
شامل سه فایل
`ytrain.csv`
،
`xtrain.csv`
و
`xtest.csv` میباشد که هریک شامل تعدادی رکورد است.
هر رکورد (سطر) در
`xtrain.csv`
و
`xtest.csv`
یک بردار ۲۵۶ بعدی، نمایندهی یک عسل خاص است. تعداد سطرهای فایل `ytrain.csv` برابر با تعداد سطرهای فایل `xtrain.csv` میباشد. هر سطر `ytrain.csv` برابر
عددی بین ۰ تا ۱۹۹ است؛ به طوری که رکورد سطر
$i$
-ام آن، نشاندهندهی شمارهی گیاه مورد تغذیهی زنبورهای تولید کنندهی عسل
$i$
-ام در
`xtrain.csv`
است.
دیتاست را میتوانید از [این لینک](/problemset/assignments/4367/download_problem_initial_project/68273/) دریافت کنید.
# تابع امتیاز
امتیاز شما تابعی از دقت پیشبینی مدل، روی دیتاهای تست، `xtest.csv`، است.
$$Score =\begin{cases} accuracy \times 120 &\text{ ,}\,\, accuracy \leq 0.5\\
\\ 50 + 90\times\frac{ e^{4 \times accuracy}}{e^{4 }} &\text{ , }\,\,accuracy > 0.5\end{cases}
$$
# خروجی
یک فایل CSV با نام
`output.csv`
که هر رکورد آن نشاندهندهی شمارهی گیاه متناظر با عسل همان رکورد در
`xtest.csv`
است. شما بایستی برای هر بردار ۲۵۶ بعدی (نمایندهی یک عسل) در `xtest.csv` شماره گیاه متناظر با آن (عددی بین ۰ تا ۱۹۹) را پیشبینی کنید.