در این سوال عملیات EDA روی یک مجموعهداده فارسی و انگلیسی انجام میشود.
مجموعه داده سوال را میتوانید از این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید، فایل qoura_questions.csv
و shereno.csv
در اختیار شما خواهد بود.
فایل shereno.csv
دارای ۴۴۰۰ سطر و ۴ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
نام ستون | توضیحات ستون |
---|---|
Poem | متن شعر |
Poet | شاعر |
Title | نام شعر |
Book | کتاب |
فایل qoura_questions.csv
دارای ۱۹۰۳ سطر و ۱ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
نام ستون | توضیحات ستون |
---|---|
question | سوال |
question
) در qoura_questions.csv
را پیدا کنید سپس مجموع تعداد کلمات منحصر به فرد در هر سوال را ارسال کنید.مثال ۱: جمله ?Why do I not lose weight when I throw up دارای ۹ کلمه یکتا میباشد.
مثال ۲: جمله Hi, my name is Ali.\nmy cousin's name is Ali too! دارای ۸ کلمه یکتا میباشد.
question
) در فایل qoura_questions.csv
و سپس تعداد رقم موجود در ستون متن شعر (Poem
) در فایل shereno.csv
را بهدست آورید.مثال۱: جمله Are there any good horror movies in 2016 دارای ۴ رقم است.
stopwords.txt
تعداد stopwordهای استفاده شده در متن شعر (Poem
) در فایل shereno.csv
را بهدست آورید.برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text
بنویسید. در نهایت یک فایل سه خطی با نام output.txt
را برای ما بارگذاری کنید.
در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.
در خط i ام جواب سوال i ام نوشته شدهاست.
چون پاسخ سوال دوم و سوم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.
در این سوال عملیات EDA روی یک مجموعهداده سوالات انگلیسی انجام می شود.
مجموعه داده سوال را میتوانید از این لینک دانلود کنید. دقت کنید این مجموعه سوال همان فایل qoura_questions.csv در سوال قبل است. |
---|
دقت کنید وجود علامتهای نگارشی در پایان کلمات ایرادی ندارد و کلمات در این حالت نیز شمارش میشوند. همچنین بزرگی و کوچکی حروف مهم نیست.
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text
بنویسید. در نهایت یک فایل چهار خطی با نام output.txt
را برای ما بارگذاری کنید.
*در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.*
در خط i ام جواب سوال i ام نوشته شدهاست.
چون پاسخ سوال سوم و چهارم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.</details>**
تعدادی چکیدهی مقاله از دو شاخهی مختلف «آمار در یادگیری ماشین» و «آمار کاربردی» به همراه برچسب شاخهی آنها در اختیار شما قرار گرفته است. شما باید یک دستهبند ساده آموزش دهید که بتواند با ورودی گرفتن چکیده، موضوع مقاله را پیشبینی کند.
شما میتوانید از هر کتابخانه پایتونی برای حل این سوال استفاده کنید. دقت کنید که کد نفرات برتر مورد بررسی قرار خواهد گرفت.
میتوانید مجموعهدادهی مربوط به این مسئله را از این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید، دو فایل train.csv
و test.csv
در اختیار شما قرار میگیرد. فایل آموزش شامل دو ستون به شرح زیر است:
نام ستون | توضیحات ستون |
---|---|
abstract |
چکیده |
category |
برچسب شاخهی مقاله که شامل یکی از دو مقدار ML یا Applied میباشد |
فایل آزمون (دادههای آزمایش) تنها شامل ستون abstract
است.
از فایل train.csv
برای پیشبینی موضوع مقاله با استفاده از چکیده آن و آموزش مدل استفاده کنید و از فایل test.csv
برای آزمایش مدل شما در سیستم داوری استفاده میشود.
ارزیابی عملکرد بر اساس دقت (accuracy
) بر روی دادههای آزمایش خواهد بود؛ یعنی تعداد نمونههای درست دستهبندی شده تقسیم بر تعداد کل نمونهها میشود. در نهایت امتیاز شما از این سوال طبق رابطهی زیر محاسبه میشود:
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از مجموعه داده آزمایش (test ) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، از ۱۰۰ درصد مجموعه داده آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit ) روی مجموعه داده آزمایش انجام میشود. |
---|
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید.
این فایل باید شامل یک ستون prediction
باشد. در سطر i
ام از این ستون باید پیشبینی مدل شما روی دادهی با اندیس i
باشد. بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
output.csv
(فقط پنج خط اول به همراه نام ستون)🔗prediction |
---|
ML |
Applied |
Applied |
ML |
ML |
با توجه به تعداد بسیار کم دادگان آموزش، پیشنهاد میشود که از مدلهای عمیق استفاده نکنید.
استفاده از وزن مدلهای از پیش آموزش دیده (pretrained) برای تسهیل آموزش مدل خود، در سوالات مانعی ندارد.
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.
در این سوال ما یک مجموعه دادهی خبری داریم که دارای ۲۳ زیر مجموعه خبری است. شما باید مدلی بسازید که از این مجموعه داده استفاده کند و برای تخمین زیر مجموعه خبر مورد استفاده قرار گیرد.
شما میتوانید از هر کتابخانه پایتونی برای حل این سوال استفاده کنید. دقت کنید که کد نفرات برتر مورد بررسی قرار خواهد گرفت.
مجموعه داده سوال را میتوانید از این یا این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید فایل آموزش (train.csv
) و آزمایش (test.csv
) را مشاهده میکنید. فایل آموزش، دارای ساختار زیر است:
نام ستون | توضیحات ستون |
---|---|
title | عنوان خبر |
subgroup | زیرگروه خبر |
abstract | خلاصه خبر |
body | مشروح خبر |
تنها تفاوت مجموعه داده آموزش با آزمایش در این است که مجموعه داده آزمایش، ستونsubgroup
را ندارند.
با استفاده از مجموعه داده آموزش، یک مُدل برای پیشبینی زیرگروه خبر (ستون subgroup
) هر سطر آموزش دهید.
برای ارزیابی پاسخ شما از معیار F1 استفاده خواهد شد. این معیار به صورت زیر تعریف میشود:
ولی به دلیل اینکه ستون پیشبینی دارای بیش از ۲ کلاس است ما از معیاری به نام Weighted F1 استفاده میکنیم که F1 میانگین وزنی کلاس ها را محاسبه میکند.
برای مطالعه بیشتر در مورد این معیار میتوانید به این منبع مراجعه کنید.
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از مجموعه داده آزمایش (test ) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، از ۱۰۰ درصد مجموعه داده آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit ) روی مجموعه داده آزمایش انجام میشود. |
---|
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید.
این فایل باید دارای یک ستون به اسم subgroup
باشد.(بزرگ و کوچک بودن حروف نام ستون رعایت شود) که ردیف i ام هر ستون، پیشبینی شما برای نظر ردیف i ام از فایل test.csv
باشد. بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
output.csv
(فقط چهار خط اول به همراه نام ستون)🔗subgroup |
---|
اجتماعی |
اجتماعی |
سیاسی |
اقتصادی |
حتما فایل output.csv
باید دارای ۱۰۱۹۵۰ سطر (بدون در نظر گرفتن header
) و یک ستون باشد.
استفاده از وزن مدلهای از پیش آموزش دیده (pretrained) برای تسهیل آموزش مدل خود، در سوالات مانعی ندارد.
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.
بخشی از فهم زبان طبیعی توسط مدلهای هوش مصنوعی را میتوان فهم آنها از زمان در بستر متن دانست. در این سوال به وظیفهای برای بررسی فهم مدلها از جهت زمان در متون طبیعی میپردازیم. فرض کنید دو پاراگراف متوالی از یک کتاب داده شده باشند. هدف تشخیص آن است که ترتیب دو پاراگراف درست است یا خیر.
شما میتوانید از هر کتابخانه پایتونی برای حل این سوال استفاده کنید. دقت کنید که کد نفرات برتر مورد بررسی قرار خواهد گرفت.
میتوانید مجموعهدادهی مربوط به این مسئله را از این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید، سه فایل train.csv
، val.csv
و test.csv
در اختیار شما قرار میگیرد. فایل آموزش و اعتبارسنجی شامل سه ستون به شرح زیر هستند:
نام ستون | توضیحات ستون |
---|---|
paragraph 1 |
پاراگراف اول |
paragraph 2 |
پاراگراف دوم |
label |
برچسب، یکی از دو مقدار correct یا reverse |
فایل آزمون (دادگان آزمایش) تنها شامل دو ستون اول است.
از فایل train.csv
و val.csv
برای آموزش و ارزیابی مدل استفاده کنید و از فایل test.csv
برای آزمایش مدل شما در سیستم داوری استفاده میشود.
ارزیابی عملکرد بر اساس دقت (accuracy
) بر روی دادههای آزمایش خواهد بود؛ یعنی تعداد نمونههای درست دستهبندی شده تقسیم بر تعداد کل نمونهها میشود. در نهایت امتیاز شما از این سوال طبق رابطهی زیر محاسبه میشود:
داوری این سوال قبل از پایان مسابقه، تنها بر اساس ۳۰ درصد از مجموعه داده آزمایش (test ) خواهد بود. پس از اتمام مسابقه، برای بهروزرسانی نهایی جدول امتیازات، از ۱۰۰ درصد مجموعه داده آزمایش استفاده خواهد شد؛ این کار برای جلوگیری از بیشبرازش (overfit ) روی مجموعه داده آزمایش انجام میشود. |
---|
پیشبینیهای مدل خود بر روی دادگان آزمایش (test.csv
) را در فایلی با نام output.csv
قرار دهید.
این فایل باید شامل یک ستون prediction
باشد. در سطر i
ام از این ستون باید پیشبینی مدل شما روی دادهی با اندیس i
باشد. بعد از آمادهسازی فایل output.csv
، آن را برای ما بارگذاری کنید.
output.csv
🔗prediction |
---|
reverse |
correct |
correct |
reverse |
reverse |
استفاده از وزن مدلهای از پیش آموزش دیده (pretrained) برای تسهیل آموزش مدل خود، در سوالات مانعی ندارد.
فراموش نکنید که قبل از پایان زمان مسابقه، بایستی تمامی کدهای این مسابقه را از قسمت بارگذاری کُد برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید بایستی همانند توضیحات قسمت بارگذاری کُد، خروجی .py
را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای jupyter
همانند .ipynb
مورد قبول واقع نخواهند شد.
بهمنظور جلوگیری از هر گونه تقلب و شبهههای احتمالی که منجر به ضایع شدن حق شما شود، شما بایستی که فایل کد هر سوال را ( فایل .py
) در قالب یک فایل زیپ در اینجا بارگذاری نمایید.
توجه داشته باشید که اگر از jupter notebook
استفاده می کنید, بایستی که از قسمت file
و زیرقسمت Download
خروجی .py
را دریافت و آن را ارسال کنید. ارسال فایلهای jupyter
مانند .ipynb
مورد قبول واقع نخواهند شد و فقط فایل .py
پذیرفته میشود.
بنابراین بهازای هر سوال (که به آن پاسخ دادهاید) ، یک فایل کد به نام آن سوال ایجاد و تمامی کدهای مربوط به آن سوال را در آن قرار دهید. در نهایت، همه فایلها را زیپ کرده و در این قسمت فقط یک فایل زیپ ارسال کنید.
یعنی پنج فایل q1.py
و q2.py
و q3.py
و q4.py
و q5.py
را زیپ کرده و فقط همان یک فایل زیپ را در این سوال آپلود کنید.