مقدمه


سلام

به مسابقه یادگیری ماشین از مسیر داده لیگ کُدکاپ ۱۴۰۰ خوش آمدید.

برای آشنایی با سیستم داوری مسابقات مسیر تحلیل داده، ویدئو زیر را مشاهده کنید.

قبل از شروع مسابقه، ابتدا موارد زیر را مطالعه‌ کنید:

  • این مسابقه، دارای ۵ سوال با استفاده از دادگان جدولی، متنی و عکس برای ۳ روز می‌باشد.
  • برای حل سوالات این مسابقه، می‌توانید از روش‌های زیر استفاده کنید:
    • تحیل‌ داده
    • داده‌ کاوی
    • سیستم‌های پیشنهاد‌دهنده
    • تحلیل سری‌زمانی
    • پردازش متن
    • پردازش تصویر (بینایی ماشین)
    • یادگیری‌ ماشین
    • یادگیری‌ عمیق
  • محدودیتی برای شما در انتخاب ابزار نرم‌افزاری یا زبان برنامه‌نویسی وجود ندارد.
  • این مسابقه در ساعت ۱۶:۰۵ روز دوشنبه (۲۲ آذر) به پایان می‌رسد.
  • برای مطالعه قوانین شرکت در مسابقه به اینجا مراجعه کنید.
  • در طول زمان مسابقه می‌توانید سوال‌های خود را از قسمت "سوال بپرسید" مطرح کنید. با توجه به این که زمان این مسابقه ۳ روز می‌باشد فقط سر ساعت‌های ۱۱، ۱۴، ۱۷ و ۱۹ روزهای مسابقه، به سوالاتی که تا آن لحظه دریافت کرده‌ایم، پاسخ‌ خواهیم داد (هر چند ما تمامی تلاش خود را می‌کنیم تا در ساعات دیگر نیز پاسخ‌گوی سوالات شما باشیم).
  • پیش از پایان زمان مسابقه، باید کُد سوالات خود را در بخش "بارگذاری کد" قرار دهید. در صورت عدم انجام این کار، از این مسابقه حذف می‌شوید و امتیازی نیز دریافت نخواهید کرد (مدیریت کردن زمان، بر عهده شما می‌باشد و زمان مسابقه برای بارگذاری کُد، تمدید نخواهد شد).
  • داوری هر سوال تا قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از دادگان آزمایش (test) خواهد بود. پس از اتمام مسابقه، برای به‌روزرسانی نهایی جدول امتیازات، فقط از ۷۰ درصد مابقی دادگان آزمایش بر روی ارسال‌ نهایی شما استفاده خواهد شد؛ این کار برای جلوگیری از بیش‌برازش (overfitting) انجام می‌شود.
  • این مسابقه در مجموع ۱۰۰۰ امتیاز دارد و افراد برتر، آن‌هایی هستند که بیشترین امتیازها را در مجموع کسب کنند.
  • بعد از پایان زمان مسابقه، امتیاز افرادی که از روش‌های غیرمتناسب با هدف مسابقه (مانند تابع تصادفی) استفاده کرده‌ باشند، صفر می‌شود و این امر تخلف به حساب می‌آید.
  • توجه داشته‌ باشید که شما ۳ روز کامل برای حل سوالات این مسابقه فرصت دارید. در نتیجه، حتی اگر مطلبی را بلد نیستید، شما فرصت دارید که در این بازه زمانی، آن را فراگرفته و نسبت به حل سوال مربوطه اقدام کنید‌،‌ پس ناامید نشوید. 😉
  • شما مجاز به استفاده از دادگان به اشتراک گذاشته شده در این مسابقه، برای سایر اهداف (آموزشی و غیرآموزشی) نیستید.
  • وبینار آموزشی این مسابقه در روز دوشنبه ۲۲ آذر ساعت ۱۸ برگزار خواهد شد که ابتدا آمار مسابقه را بررسی می‌کنیم و در ادامه راه‌حل سوالات را خواهیم دید. برای شرکت در وبینار، به صورت کاربر مهمان از طریق اینجا اقدام به ورود کنید.
  • لینک وبینار و فایل‌های توضیح داده شده در وبینار، بعد از گذشت چند روز از پایان مسابقه در آدرس https://github.com/QueraTeam/data-contests قرار داده می‌شوند.
  • بعد از برگزاری وبینار آموزشی، یک نظرسنجی در مورد مسابقه برای شما ارسال می‌گردد. لطفا با پُر کردن این نظرسنجی به ما در بهبود کیفیت مسابقات آینده تحلیل داده کمک‌ کنید.

زیرساخت و نحوه دریافت دادگان🔗

دادگان هر سوال را در صورت سوال مربوطه، می‌توانید دریافت نمایید. اما پیش از آن، بایستی که محیط برنامه‌نویسی لازم برای محاسبات خود را آماده کنید. اگر می‌خواهید که با استفاده از زبان برنامه‌نویسی پایتون و کتابخانه‌های موجود در آن، در این مسابقه شرکت کنید. می‌توانید از سامانه گوگل کُلَب استفاده کنید.

بدین صورت نیازی نیست که شما دادگان حجیم این مسابقه (در حد گیگابایت) را روی کامپیوتر خود دانلود کنید. همچنین گوگل کُلَب این امکان را به شما می‌دهد که از قابلیت‌های GPU و TPU آن به رایگان استفاده کرده و سرعت محاسبات خود را به طور قابل ملاحظه‌ای افزایش دهید. پیشنهاد می‌شود که ابتدا کُد خود را در حالت CPU توسعه دهید و فقط هنگامی که می‌ خواهید شروع به آموزش دادن مُدل خود کنید، قابلیت GPU یا TPU را در صورت نیاز فعال کنید، بدین صورت به صورت بهینه از منابع استفاده می‌کنید.

اگر اولین باری است که با گوگل کُلَب آشنا می‌شوید. پیشنهاد می‌شود راهنمای فارسی کار با آن را از اینجا به دقت مطالعه کنید. توجه‌ داشته‌ باشید که برای استفاده از گوگل کُلَب، شما نیازمند به داشتن ایمیل gmail می‌باشید و قابلیت‌های ارائه شده در نسخه رایگان آن، برای انجام این مسابقه کافی است. همچنین فعلا برای دسترسی به آن نیازی به استفاده از فیلترشکن نیست.

برای سوال‌های "پیش‌بینی تعداد سفر" و "تحلیل احساس نظرات"، بایستی که دادگان آن را خود مستقیم دریافت کرده و از قسمت ‍Files و از طریق Upload to session storage، داخل گوگل کُلَب بارگذاری کنید.

از آنجایی که دادگان باقی سوالات حجم بالاتری دارند؛ پیشنهاد می‌کنیم که آن‌ها را با کمک دستور wget و به صورت مستقیم در گوگل کُلَب، قرار دهید. برای مطالعه بیشتر در مورد این دستور، اینجا را ببینید.

توجه داشته باشید که داخل گوگل کُلب، باید قبل از اجرای دستور wget، علامت ! قرار دهید. به مثال‌های زیر نگاه کنید.

! wget <URL>
! unzip <ZIP file>
Plain text

همچنین در صورتی که نمی خواهید از گوگل کُلب استفاده کنید و می‌خواهید محاسبات را در کامپیوتر شخصی خود یا زیرساخت دیگری انجام دهید، می‌توانید دادگان را دانلود و از حالت فشرده خارج کنید. توجه داشته‌ باشید که اگر اینترنت شما، از ترافیک نیم‌بها برای سایت‌های داخلی استفاده می‌کند، بهتر است که در هنگام دریافت دادگان، VPN خود را خاموش کنید.

توجه داشته باشید که محدودیتی در زبان برنامه‌نویسی مورد استفاده برای این مسابقه وجود ندارد.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.