در این سوال عملیات EDA روی یک مجموعهداده فارسی و انگلیسی انجام میشود.

مجموعهداده
| مجموعه داده سوال را میتوانید از این لینک دانلود کنید. |
|---|
هنگامی که این فایل را از حالت فشرده خارج کنید، فایل qoura_questions.csv و shereno.csv در اختیار شما خواهد بود.
فایل shereno.csv دارای ۴۴۰۰ سطر و ۴ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
| نام ستون | توضیحات ستون |
|---|---|
| Poem | متن شعر |
| Poet | شاعر |
| Title | نام شعر |
| Book | کتاب |
فایل qoura_questions.csv دارای ۱۹۰۳ سطر و ۱ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
| نام ستون | توضیحات ستون |
|---|---|
| question | سوال |
صورت مسئله
- تعداد کلمات منحصر به فرد (یکتا) در هر سوال (ستون
question) درqoura_questions.csvرا پیدا کنید سپس مجموع تعداد کلمات منحصر به فرد در هر سوال را ارسال کنید.
مثال ۱: جمله ?Why do I not lose weight when I throw up دارای ۹ کلمه یکتا میباشد.
مثال ۲: جمله Hi, my name is Ali.\nmy cousin's name is Ali too! دارای ۸ کلمه یکتا میباشد.
3453
- ابتدا مجموع تعداد رقمهای موجود در ستون سوال (
question) در فایلqoura_questions.csvو سپس تعداد رقم موجود در ستون متن شعر (Poem) در فایلshereno.csvرا بهدست آورید.
مثال۱: جمله Are there any good horror movies in 2016 دارای ۴ رقم است.
412 532
- با استفاده از فایل
stopwords.txtتعداد stopwordهای استفاده شده در متن شعر (Poem) در فایلshereno.csvرا بهدست آورید.
3423
خروجی
برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text بنویسید. در نهایت یک فایل سه خطی با نام output.txt را برای ما بارگذاری کنید.
در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.
نمونه خروجی ۱
3453
412 532
3423
توضیحات
در خط i ام جواب سوال i ام نوشته شدهاست.
نمونه خروجی ۲
3256
-1
-1
توضیحات
چون پاسخ سوال دوم و سوم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!
ارسال پاسخ برای این سؤال