در این سوال عملیات EDA روی یک مجموعه‌داده سوالات انگلیسی انجام می شود. ![توضیح تصویر](https://quera.org/qbox/download/WZCK5K3tcO/1_mhWZ6BhAKaaVNEwBN_rkJw.jpeg) # مجموعه داده | مجموعه داده سوال را می‌توانید از [این لینک](/problemset/assignments/4367/download_problem_initial_project/220642/) دانلود کنید. دقت کنید این مجموعه سوال همان فایل `qoura_questions.csv` در سوال قبل است.| | :--: | # صورت مسئله 1. تعداد کلماتی که با m شروع میشوند، با t تمام می شوند و طول آنها بیشتر از ۴ کاراکتر است را به‌دست آورید. <details class="red"> <summary>**توجه**</summary> دقت کنید وجود علامت‌های نگارشی در پایان کلمات ایرادی ندارد و کلمات در این حالت نیز شمارش می‌شوند. همچنین بزرگی و کوچکی حروف مهم نیست. </details> ``` 43 ``` 2. مجموع تعداد ایموجی های متن را به‌دست آورید. ``` 66 ``` 3. ۵ کلمه پر تکرار و تعداد تکرار آن‌ها را با با ترتیب نزولی به‌دست آورید. ``` the:14715 of:6742 and:6517 a:4805 to:4707 ``` 4. تعداد کلماتی که فقط یک بار در کل متن تکرار شده‌اند را به‌دست آورید. ``` 2342 ``` # خروجی برای ارسال پاسخ، جواب هر سوال را مشابه‌ مثال، در یک سطر از یک فایل `text` بنویسید. در نهایت یک فایل چهار خطی با نام **`output.txt`** را برای ما بارگذاری کنید. \**در صورتی که جواب سوالی را نمی‌دانید در سطر مربوطه ۱- وارد کنید.** ## نمونه خروجی ۱ ``` 43 66 the:14715 of:6742 and:6517 a:4805 to:4707 2342 ``` <details class="violet"> <summary>**توضیحات**</summary> در خط _i_ ام جواب سوال _i_ ام نوشته شده‌است. </details> ## نمونه خروجی ۲ ``` 3256 1000 -1 -1 ``` <details class="violet"> <summary>**توضیحات**</summary> چون پاسخ سوال سوم و چهارم را نمی‌دانستید، به جای آن عدد ۱- نوشته‌اید! </details>

تحلیل داده اکتشافی (قسمت دوم)