گل‌ها و زنبورها ‏| تمرین برنامه‌نویسی ‏| Quera

در سال ۲۱۰۳ میلادی، یک گیاه‌شناس به نام «ادریس محقق» مسئولیت پروژه‌ای برای بررسی تاثیرات تغییرات اقلیمی، روی پوشش گیاهی یک منطقه‌ی وسیع و دورافتاده- که تصور می‌شود، گونه‌های گیاهی نادر و در معرض خطری در آن وجود داشته باشد- را بر عهده می‌گیرد. اما درست قبل از عقد قرارداد و در کشاکش بررسی‌های اولیه، بزرگ‌ترین سرمایه‌گذار در پروژه، به علت تغییر تیم مدیریتی، تصمیم به کاهش مقدار قابل توجهی از مبلغ سرمایه‌گذاری خود در پروژه را می‌گیرد، به طوری که پیگیری پروژه به شکل پیشین- یعنی ارسال تیم‌های متخصص و ربات‌های نمونه‌بردار برای بررسی‌های میدانی- قابل ادامه نخواهد بود. نتایج بررسی‌های اولیه امیدوارکننده است، اما در صورت انتظار برای پیدا کردن سرمایه‌گذار جدید، به علت پایان فصل مناسب تحقیق، پروژه ممکن است تا یک‌سال به تعویق بیافتد!

ادریس که به این سادگی‌ها خیال کوتاه آمدن ندارد، بعد از کمی بررسی متوجه‌ی رونق زنبورداری در آن منطقه می‌شود و با جست‌وجویی کوتاه در «دانشنامه‌ی دیتاهای سرگردان» به پروژه‌ای با عنوان «زنبورها برای خلق» در شوروی سابق برمی‌خورد که در آن با هدف پیش‌روی بلوک شرق از بلوک غرب در تولید عسل، تعداد زیادی از گونه‌های گیاهی به عنوان منبع غذایی اصلی زنبورها مورد آزمایش قرار گرفته و ۲۵۶ ویژگی از ویژگی‌های فیزیکی (مانند رنگ، گران‌روی و...) و شیمیایی (مانند غلظت قندها و پروتئین‌های مختلف و...) عسل تولیدی از آن‌ها هر یک به صورت عددی حقیقی ثبت شده بود. ادریس با کمی بررسی بیشتر، درمی‌یابد که از بین ۲۴۲ گونه‌ای که در پیشنهاده پژوهشی اولیه‌ی پروژه‌اش وجود دارد، ۲۰۰ عدد از آن گیاهان در لیست گیاهان مورد بررسی در پروژه‌ی «زنبورها برای خلق» وجود دارد.

ادریس و هم‌کاران‌اش، بلافاصله مشغول به آماده کردن دیتاستی مرتبط با نیازشان از نتایج پروژه‌‌ی «زنبورها برای خلق» و جمع‌آوری ویژگی‌های نمونه‌ی عسل از کندوهای منطقه و مناطق مجاور می‌کنند، که نتایج‌اش در توضیحات زیر موجود است. با استفاده از این داده‌ها به تیم کوچک آن‌ها در پیدا کردن مدلی برای تشخیص منبع اصلی تغذیه‌ی زنبورها کمک کنید. ادریس از نتایج بهترین مدل برای جست‌وجوی هدف‌مندتر و کم هزینه‌تر گیاهان مورد نظرش استفاده خواهد کرد.

دیتاست

شامل سه فایل ytrain.csv ، xtrain.csv و xtest.csv می‌باشد که هریک شامل تعدادی رکورد است. هر رکورد (سطر) در xtrain.csv و xtest.csv یک بردار ۲۵۶ بعدی، نماینده‌ی یک عسل خاص است. تعداد سطرهای فایل ytrain.csv برابر با تعداد سطرهای فایل xtrain.csv می‌باشد. هر سطر ytrain.csv برابر عددی بین ۰ تا ۱۹۹ است؛ به طوری که رکورد سطر \(i\) -ام آن، نشان‌دهنده‌ی شماره‌ی گیاه مورد تغذیه‌ی زنبورهای تولید کننده‌ی عسل \(i\) -ام در xtrain.csv است.

دیتاست را می‌توانید از این لینک دریافت کنید.

تابع امتیاز

امتیاز شما تابعی از دقت پیش‌بینی مدل، روی دیتاهای تست، xtest.csv، است. \[Score =\begin{cases} accuracy \times 120 &\text{ ,}\,\, accuracy \leq 0.5\\ \\ 50 + 90\times\frac{ e^{4 \times accuracy}}{e^{4 }} &\text{ , }\,\,accuracy > 0.5\end{cases} \]

خروجی

یک فایل CSV با نام output.csv که هر رکورد آن نشان‌دهنده‌ی شماره‌ی گیاه متناظر با عسل همان رکورد در xtest.csv است. شما بایستی برای هر بردار ۲۵۶ بعدی (نماینده‌ی یک عسل) در xtest.csv شماره گیاه متناظر با آن (عددی بین ۰ تا ۱۹۹) را پیشبینی کنید.

ارسال پاسخ برای این سؤال

آموزش عملی Power BI

تحلیل داده با اکسل

تحلیل داده با پایتون

دیتاست

تابع امتیاز

خروجی