در این سوال عملیات EDA روی یک مجموعهداده سوالات انگلیسی انجام می شود.
مجموعه داده
مجموعه داده سوال را میتوانید از این لینک دانلود کنید. دقت کنید این مجموعه سوال همان فایل qoura_questions.csv در سوال قبل است. |
---|
صورت مسئله
- تعداد کلماتی که با m شروع میشوند، با t تمام می شوند و طول آنها بیشتر از ۴ کاراکتر است را بهدست آورید.
توجه
دقت کنید وجود علامتهای نگارشی در پایان کلمات ایرادی ندارد و کلمات در این حالت نیز شمارش میشوند. همچنین بزرگی و کوچکی حروف مهم نیست.
43
- مجموع تعداد ایموجی های متن را بهدست آورید.
66
- ۵ کلمه پر تکرار و تعداد تکرار آنها را با با ترتیب نزولی بهدست آورید.
the:14715 of:6742 and:6517 a:4805 to:4707
- تعداد کلماتی که فقط یک بار در کل متن تکرار شدهاند را بهدست آورید.
2342
خروجی
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text
بنویسید. در نهایت یک فایل چهار خطی با نام output.txt
را برای ما بارگذاری کنید.
**در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.**
نمونه خروجی ۱
43
66
the:14715 of:6742 and:6517 a:4805 to:4707
2342
توضیحات
در خط i ام جواب سوال i ام نوشته شدهاست.
نمونه خروجی ۲
3256
1000
-1
-1
توضیحات
چون پاسخ سوال سوم و چهارم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
ارسال پاسخ برای این سؤال