در دیتاستی که داریم، اطلاعاتی راجع به تعدادی از دانشجویان وجود دارد که در این سوال، از شما میخوایم که با بررسی این دیتاست، به سوالات ما در مورد این دانشجویان جواب بدین.
سوال اول:
چند دانشجو به طور کلی در این دیتاست مورد بررسی قرار گرفتهاند؟
سوال دوم:
چند تن از این دانشجویان را دخترها تشکیل دادهاند؟
سوال سوم:
چند تن از این دانشجویان کمتر از ۱۷ سال سن دارند و در عین حال درآمد دارند؟
سوال چهارم:
چند تن از دانشجویان بیش از ۱۰ غیبت دارند ولی با این حال زمان مطالعهشان بیشترین(۴) است؟
جواب سوالهای بالا را به صورت یک فایل .txt که در هر خط جواب هر سوال قرار دارد به نام sub.txt آپلود کنید.
دیتای این سوال را از [این لینک](https://drive.google.com/file/d/1Wu7dbAjEFoawShSxMf5IvLoDLCMCWpir/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
تحلیل اطلاعات دانشجویان
در ادامه سوال قبل، میخواهیم نمره آزمون دانشجویان را پیشبینی کنیم.
با استفاده از اطلاعات فایل X_train.csv و نمرههای متناظر در فایل y_train.csv مدلی آماده کنید که بتواند با این اطلاعات، نمره دانشجویان را پیشبینی کند.
مدل خود را روی دانشجویان فایل X_test.csv اجرا کرده و خروجی آن را به صورت یک فایل csv با ۲ ستون به صورت زیر آپلود کنید:
```
StudentID,Score
1045,15
1100,19
1010,6
```
دیتا را از [این لینک](https://drive.google.com/file/d/1XJ2daZnHV5p0374MWjSMbY34nW3DExGY/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
پیشبینی نمره دانشجویان
در دیتاستی که داریم، اطلاعاتی راجع به فیلمهای مختلف وجود دارد که در این سوال، از شما میخوایم که با بررسی این دیتاست، به سوالات ما در مورد این فیلمها جواب بدین.
سوال اول:
چند فیلم منحصر به فرد در این دیتاست وجود دارد؟
سوال دوم:
در این دیتاست، از چه سالی بیشترین تعداد فیلم وجود دارد؟
سوال سوم:
در این دیتاست، بیشترین تعداد نمرهای که کاربران دادهاند چه نمرهای است؟
جواب سوالهای بالا را به صورت یک فایل .txt که در هر خط جواب هر سوال قرار دارد به نام sub.txt آپلود کنید.
دیتای این سوال را از [این لینک](https://drive.google.com/file/d/1-N2bmmus5sT1bsoOrPykRB-WWhA9ymbf/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
تحلیل اطلاعات فیلمها
دیتاستی از نظرات و امتیازات کاربران در مورد فیلمهای سالهای اخیر در دسترس دارید.
این دیتاست از نام فیلم، سال تولید، ژانر، نظر کاربر و امتیاز او به فیلم بین ۱ تا ۵ تشکیل شده است.
با تحلیل این دادهها، مدلی طراحی کنید که با دیدن نظرات جدید، امتیاز کاربر به آن فیلم را پیشبینی کند.
# دادگان
دادگان برای آموزش در فایل `train.csv` قرار دارند و بعد از آمادهسازی، مدل خود را روی دادگان `test.csv` اجرا کرده و خروجی را به صورت فایل `output.csv` با دو ستون ID و prediction به صورت زیر آپلود کنید.
```
ID,prediction
100092,3
100034,5
100090,1
```
امتیاز شما با فرمول Mean Absolute Error محاسبه میشود:
$$ score = (2 - error(prediction, ground truth)) * 50 $$
دادگان این سوال را از [این لینک](https://drive.google.com/file/d/1fXuMhp0eok5bu9-EgZN4Ii7YrD5HKnZ5/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
امتیازدهی فیلم
سلف دانشگاه امیرکبیر سیستمی راه اندازی کرده که هر غذایی که بر میدارید رو با دوربین اسکن بکنه و قیمت و اطلاعاتش رو به شما در لحظه بگه.
ولی این سیستم خطای بالایی داره. از شما خواستن که مدلی آموزش بدین که با دقت خوبی این غذاها رو تشخیص بده.
# دادگان
این غذاها از ۵ دسته بندی مختلف هستن و در فولدرهای جدا جدا دسته بندی شدن.
اندازه عکسها با هم ممکن است برابر نباشد.
در فایل زیپی که دانلود میکنید دو فولدر train و test وجود دارد که دادگان لیبل خورده داخل train قرار دارند و بعد از آموزش، نتیجه مدل خود را روی دادگان test برای ارزیابی آپلود میکنید.
# ارزیابی
ارزیابی به صورت اندازه گیری accuracy یا همان دقت پیشبینی شما انجام میشود که نسبت تعداد پیشبینیهای درست به تعداد کل دادگان تست است.
# آپلود جواب
بعد از آموزش مدل، آن را روی دادگان تست اجرا کرده و نتیجه را به صورت یک فایل csv که یک ستون نام عکس `file` و ستون دیگر کلاس پیشبینی شده `prediction` است آپلود کنید.
فایل شما حتما باید دارای هدر باشد.
فایل شما دقیقا باید ۱۴۵۳ ردیف داشته باشد.
دادگان را از [این لینک](https://drive.google.com/file/d/1WtrFwCpNThjoQPM4U_iuE7KNg-IDpKGS/view?usp=sharing) دانلود کنید.
```
file,prediction
0.jpg,Egg
1.jpg,Meat
2.jpg,Dessert
```
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
دسته بندی غذا
دیتاستی داریم از عکسهای سیاه و سفید، از دستهایی که دارن شمارههای ۰ تا ۵ رو با انگشتاشون نشون میدن.
از شما خواسته شده که مدلی آماده کنید که با گرفتن عکسهای مشابه، عددی که در عکس نشون داده شده رو پیشبینی بکنه.
# ارزیابی
نمره شما بر اساس دقت مدل، در پیشبینی دادگان تست داده میشود.$$ Score = Accuracy $$
# دادگان
تمام عکسها در اندازه 128x128 قرار دارند و همگی سیاه و سفید هستند.
دادگان train در فولدر `train` قرار دارند و کلاس بندی آنها به صورت زیر است:
`imageID_class.png` (آیدی هر عکس، خط تیره و بعد شماره نشان داده شده در آن عکس)
دادگان تست نیز در فولدر `test` قرار دارند که به صورت `ID.png` قرار گرفتهاند.
# خروجی
مدل خود را روی تمامی دادگان تست اجرا کنید و پیشبینیهای مدل خود بر روی دادگان تست را در فایلی با نام `output.csv` قرار دهید. این فایل باید دارای دو ستون با نامهای `ID` و `prediction` به ترتیب باشند. در هر ردیف، نام فایل بدون .png را در `ID` و پیشبینی خود از شماره نشان داده شده را در ستون `prediction` قرار دهید (دقت کنید که فایل `CSV` باید حتما دارای `header` باشد).
خروجی شما باید دارای ۳۰۰۲ ردیف باشد.
# نمونه خروجی
```
ID,prediction
0,1
1,3
2,3
```
دادگان این سوال را از [این لینک](https://drive.google.com/file/d/1UT_9id3u08GwOO4lW1-BQffqIsl8j7VY/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
شماره انگشتان دست
دیتایی از ایمیلهای اسپم و غیر اسپم در اختیار شما قرار گرفته است.
با بررسی این ایمیلها،مدلی طراحی کنید که با گرفتن ایمیلهای جدید، اسپم بودن یا نبودن آن را تشخیص دهد.
# دادگان
دادگان این سوال از چند بخش تشکیل شدهاند:
فولدر `spam_training`: ایمیلهای اسپم برای آموزش در این فولدر قرار دارند.
فولدر `ok_training`: ایمیلهای سالم برای آموزش در این فولدر قرار دارند.
فولدر `test`: ایمیلهای تست برای پیشبینی با مدل شما در این فولدر قرار دارند.
فایل `test.csv`: نام تمام فایلهای تست در این فایل قرار دارند. برای آپلود فایل،باید ستونی به این فایل اضافه کنید.
# آپلود
بعد از آموزش مدل، ایمیلهای داخل فولدر `test` را به مدل داده و سپس پیشبینی مدل از این ایمیلها را در ستونی به نام `prediction` در فایل `test.csv` برای هر فایل روبروی آن اضافه کنید.
```
filename,prediction
wejcibnxg7kzo6vu5yq3.txt,False
oz5b87mcqs39rdl2vp1f.txt,True
7qulko3jzd9bp0eiy4rg.txt,False
```
دادگان این سوال را از [این لینک](https://drive.google.com/file/d/11TVxrMoKPg8wufvegY7f_yYo37OOU9ox/view?usp=sharing) دانلود کنید.
**حتما کدهای خود را در آخر، به صورت یک فایل ZIP در کنار سوالهای دیگر، در سوال آخر آپلود کنید.
دقت کنید که کد شما بررسی میشود و آپلود کدها برای نتیجه مسابقه بسیار مهم است.**
تشخیص ایمیل اسپم
در اینجا، کد تمام سوالها را به صورت فایل پایتونی، .py آپلود کنید.