در سال ۲۱۰۳ میلادی، یک گیاهشناس به نام «ادریس محقق» مسئولیت پروژهای برای بررسی تاثیرات تغییرات اقلیمی، روی پوشش گیاهی یک منطقهی وسیع و دورافتاده- که تصور میشود، گونههای گیاهی نادر و در معرض خطری در آن وجود داشته باشد- را بر عهده میگیرد. اما درست قبل از عقد قرارداد و در کشاکش بررسیهای اولیه، بزرگترین سرمایهگذار در پروژه، به علت تغییر تیم مدیریتی، تصمیم به کاهش مقدار قابل توجهی از مبلغ سرمایهگذاری خود در پروژه را میگیرد، به طوری که پیگیری پروژه به شکل پیشین- یعنی ارسال تیمهای متخصص و رباتهای نمونهبردار برای بررسیهای میدانی- قابل ادامه نخواهد بود. نتایج بررسیهای اولیه امیدوارکننده است، اما در صورت انتظار برای پیدا کردن سرمایهگذار جدید، به علت پایان فصل مناسب تحقیق، پروژه ممکن است تا یکسال به تعویق بیافتد!
ادریس که به این سادگیها خیال کوتاه آمدن ندارد، بعد از کمی بررسی متوجهی رونق زنبورداری در آن منطقه میشود و با جستوجویی کوتاه در «دانشنامهی دیتاهای سرگردان» به پروژهای با عنوان «زنبورها برای خلق» در شوروی سابق برمیخورد که در آن با هدف پیشروی بلوک شرق از بلوک غرب در تولید عسل، تعداد زیادی از گونههای گیاهی به عنوان منبع غذایی اصلی زنبورها مورد آزمایش قرار گرفته و ۲۵۶ ویژگی از ویژگیهای فیزیکی (مانند رنگ، گرانروی و...) و شیمیایی (مانند غلظت قندها و پروتئینهای مختلف و...) عسل تولیدی از آنها هر یک به صورت عددی حقیقی ثبت شده بود. ادریس با کمی بررسی بیشتر، درمییابد که از بین ۲۴۲ گونهای که در پیشنهاده پژوهشی اولیهی پروژهاش وجود دارد، ۲۰۰ عدد از آن گیاهان در لیست گیاهان مورد بررسی در پروژهی «زنبورها برای خلق» وجود دارد.
ادریس و همکاراناش، بلافاصله مشغول به آماده کردن دیتاستی مرتبط با نیازشان از نتایج پروژهی «زنبورها برای خلق» و جمعآوری ویژگیهای نمونهی عسل از کندوهای منطقه و مناطق مجاور میکنند، که نتایجاش در توضیحات زیر موجود است. با استفاده از این دادهها به تیم کوچک آنها در پیدا کردن مدلی برای تشخیص منبع اصلی تغذیهی زنبورها کمک کنید. ادریس از نتایج بهترین مدل برای جستوجوی هدفمندتر و کم هزینهتر گیاهان مورد نظرش استفاده خواهد کرد.
دیتاست
شامل سه فایل
ytrain.csv
،
xtrain.csv
و
xtest.csv
میباشد که هریک شامل تعدادی رکورد است.
هر رکورد (سطر) در
xtrain.csv
و
xtest.csv
یک بردار ۲۵۶ بعدی، نمایندهی یک عسل خاص است. تعداد سطرهای فایل ytrain.csv
برابر با تعداد سطرهای فایل xtrain.csv
میباشد. هر سطر ytrain.csv
برابر
عددی بین ۰ تا ۱۹۹ است؛ به طوری که رکورد سطر
$i$
-ام آن، نشاندهندهی شمارهی گیاه مورد تغذیهی زنبورهای تولید کنندهی عسل
$i$
-ام در
xtrain.csv
است.
دیتاست را میتوانید از این لینک دریافت کنید.
تابع امتیاز
امتیاز شما تابعی از دقت پیشبینی مدل، روی دیتاهای تست، xtest.csv
، است.
$$Score =\begin{cases} accuracy \times 120 &\text{ ,},, accuracy \leq 0.5\
\ 50 + 90\times\frac{ e^{4 \times accuracy}}{e^{4 }} &\text{ , },,accuracy > 0.5\end{cases}
$$
خروجی
یک فایل CSV با نام
output.csv
که هر رکورد آن نشاندهندهی شمارهی گیاه متناظر با عسل همان رکورد در
xtest.csv
است. شما بایستی برای هر بردار ۲۵۶ بعدی (نمایندهی یک عسل) در xtest.csv
شماره گیاه متناظر با آن (عددی بین ۰ تا ۱۹۹) را پیشبینی کنید.
ارسال پاسخ برای این سؤال