در این سوال عملیات EDA روی یک مجموعهداده سوالات انگلیسی انجام می شود.
![توضیح تصویر](https://quera.org/qbox/view/WZCK5K3tcO/1_mhWZ6BhAKaaVNEwBN_rkJw.jpeg)
# مجموعه داده
| مجموعه داده سوال را میتوانید از [این لینک](/problemset/assignments/4367/download_problem_initial_project/220642/) دانلود کنید. دقت کنید این مجموعه سوال همان فایل `qoura_questions.csv` در سوال قبل است.|
| :--: |
# صورت مسئله
1. تعداد کلماتی که با m شروع میشوند، با t تمام می شوند و طول آنها بیشتر از ۴ کاراکتر است را بهدست آورید.
<details class="red">
<summary>**توجه**</summary>
دقت کنید وجود علامتهای نگارشی در پایان کلمات ایرادی ندارد و کلمات در این حالت نیز شمارش میشوند. همچنین بزرگی و کوچکی حروف مهم نیست.
</details>
```
43
```
2. مجموع تعداد ایموجی های متن را بهدست آورید.
```
66
```
3. ۵ کلمه پر تکرار و تعداد تکرار آنها را با با ترتیب نزولی بهدست آورید.
```
the:14715 of:6742 and:6517 a:4805 to:4707
```
4. تعداد کلماتی که فقط یک بار در کل متن تکرار شدهاند را بهدست آورید.
```
2342
```
# خروجی
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل `text` بنویسید. در نهایت یک فایل چهار خطی با نام **`output.txt`** را برای ما بارگذاری کنید.
\**در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.**
## نمونه خروجی ۱
```
43
66
the:14715 of:6742 and:6517 a:4805 to:4707
2342
```
<details class="violet">
<summary>**توضیحات**</summary>
در خط _i_ ام جواب سوال _i_ ام نوشته شدهاست.
</details>
## نمونه خروجی ۲
```
3256
1000
-1
-1
```
<details class="violet">
<summary>**توضیحات**</summary>
چون پاسخ سوال سوم و چهارم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
</details>
تحلیل داده اکتشافی (قسمت دوم)