در این سوال عملیات EDA روی یک مجموعهداده فارسی و انگلیسی انجام میشود.
![توضیح تصویر](https://quera.org/qbox/view/WZCK5K3tcO/1_mhWZ6BhAKaaVNEwBN_rkJw.jpeg)
# مجموعهداده
| مجموعه داده سوال را میتوانید از [این لینک](/contest/assignments/64356/download_problem_initial_project/219298/) دانلود کنید.|
| :--: |
هنگامی که این فایل را از حالت فشرده خارج کنید، فایل `qoura_questions.csv` و `shereno.csv` در اختیار شما خواهد بود.
فایل `shereno.csv` دارای ۴۴۰۰ سطر و ۴ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
| نام ستون | توضیحات ستون |
|:----------|:------------------:|
| Poem | متن شعر |
| Poet | شاعر |
| Title | نام شعر |
| Book | کتاب |
فایل `qoura_questions.csv` دارای ۱۹۰۳ سطر و ۱ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
| نام ستون | توضیحات ستون |
|:----------|:------------------:|
| question | سوال |
# صورت مسئله
1. تعداد کلمات منحصر به فرد (یکتا) در هر سوال (ستون ` question`) در `qoura_questions.csv` را پیدا کنید سپس مجموع تعداد کلمات منحصر به فرد در هر سوال را ارسال کنید.
مثال ۱: جمله ?Why do I not lose weight when I throw up دارای ۹ کلمه یکتا میباشد.
مثال ۲: جمله Hi, my name is Ali.\nmy cousin's name is Ali too! دارای ۸ کلمه یکتا میباشد.
```
3453
```
2. ابتدا مجموع تعداد رقمهای موجود در ستون سوال (` question`) در فایل `qoura_questions.csv` و سپس تعداد رقم موجود در ستون متن شعر (`Poem`) در فایل `shereno.csv` را بهدست آورید.
مثال۱: جمله Are there any good horror movies in 2016 دارای ۴ رقم است.
```
412 532
```
3. با استفاده از فایل `stopwords.txt` تعداد stopwordهای استفاده شده در متن شعر (`Poem`) در فایل `shereno.csv` را بهدست آورید.
```
3423
```
# خروجی
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل `text` بنویسید. در نهایت یک فایل سه خطی با نام **`output.txt`** را برای ما بارگذاری کنید.
**در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.**
## نمونه خروجی ۱
```
3453
412 532
3423
```
<details class="violet">
<summary>**توضیحات**</summary>
در خط _i_ ام جواب سوال _i_ ام نوشته شدهاست.
</details>
## نمونه خروجی ۲
```
3256
-1
-1
```
<details class="violet">
<summary>**توضیحات**</summary>
چون پاسخ سوال دوم و سوم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
</details>
<details class="red">
<summary>
**هشدار** 😱
</summary>
فراموش نکنید که **قبل از پایان زمان مسابقه**، **بایستی** تمامی کدهای این مسابقه را از قسمت **بارگذاری کُد** برای ما ارسال کنید. در غیر این صورت، شما از این مسابقه، امتیازی کسب نمی کنید.
توجه داشته باشید که اگر از `jupter notebook` استفاده می کنید بایستی همانند توضیحات قسمت **بارگذاری کُد**، خروجی `.py` را دریافت و برای ارسال در نظر بگیرید. ارسال فایلهای `jupyter` همانند `.ipynb` مورد قبول واقع نخواهند شد.
</details>
تحلیل داده اکتشافی (قسمت اول)