در این سوال عملیات EDA روی یک مجموعهداده فارسی و انگلیسی انجام میشود.
مجموعه داده سوال را میتوانید از این لینک دانلود کنید. |
---|
هنگامی که این فایل را از حالت فشرده خارج کنید، فایل qoura_questions.csv
و shereno.csv
در اختیار شما خواهد بود.
فایل shereno.csv
دارای ۴۴۰۰ سطر و ۴ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
نام ستون | توضیحات ستون |
---|---|
Poem | متن شعر |
Poet | شاعر |
Title | نام شعر |
Book | کتاب |
فایل qoura_questions.csv
دارای ۱۹۰۳ سطر و ۱ ستون میباشد و جزییات آن در جدول زیر آمدهاست:
نام ستون | توضیحات ستون |
---|---|
question | سوال |
question
) در qoura_questions.csv
را پیدا کنید سپس مجموع تعداد کلمات منحصر به فرد در هر سوال را ارسال کنید.مثال ۱: جمله ?Why do I not lose weight when I throw up دارای ۹ کلمه یکتا میباشد.
مثال ۲: جمله Hi, my name is Ali.\nmy cousin's name is Ali too! دارای ۸ کلمه یکتا میباشد.
question
) در فایل qoura_questions.csv
و سپس تعداد رقم موجود در ستون متن شعر (Poem
) در فایل shereno.csv
را بهدست آورید.مثال۱: جمله Are there any good horror movies in 2016 دارای ۴ رقم است.
stopwords.txt
تعداد stopwordهای استفاده شده در متن شعر (Poem
) در فایل shereno.csv
را بهدست آورید.برای ارسال پاسخ، جواب هر سوال را مشابه مثال، در یک سطر از یک فایل text
بنویسید. در نهایت یک فایل سه خطی با نام output.txt
را برای ما بارگذاری کنید.
در صورتی که جواب سوالی را نمیدانید در سطر مربوطه ۱- وارد کنید.
در خط i ام جواب سوال i ام نوشته شدهاست.
چون پاسخ سوال دوم و سوم را نمیدانستید، به جای آن عدد ۱- نوشتهاید!