در این سوال عملیات EDA روی یک مجموعه‌داده فارسی و انگلیسی انجام می‌شود.

توضیح تصویر

مجموعه‌داده

مجموعه داده سوال را می‌توانید از این لینک دانلود کنید.

هنگامی که این فایل را از حالت فشرده خارج کنید، فایل‌ qoura_questions.csv و shereno.csv در اختیار شما خواهد بود.

فایل shereno.csv دارای ۴۴۰۰ سطر و ۴ ستون می‌باشد و جزییات آن در جدول زیر آمده‌است:

نام ستون توضیحات ستون
Poem متن شعر
Poet شاعر
Title نام شعر
Book کتاب

فایل qoura_questions.csv دارای ۱۹۰۳ سطر و ۱ ستون می‌باشد و جزییات آن در جدول زیر آمده‌است:

نام ستون توضیحات ستون
question سوال

صورت مسئله

  1. تعداد کلمات منحصر به فرد (یکتا) در هر سوال (ستون question) در qoura_questions.csv را پیدا کنید سپس مجموع تعداد کلمات منحصر به فرد در هر سوال را ارسال کنید.

مثال ۱: جمله ?Why do I not lose weight when I throw up دارای ۹ کلمه یکتا می‌باشد.

مثال ۲: جمله Hi, my name is Ali.\nmy cousin's name is Ali too! دارای ۸ کلمه یکتا می‌باشد.

3453
Plain text
  1. ابتدا مجموع تعداد رقم‌های موجود در ستون سوال ( question) در فایل qoura_questions.csv و سپس تعداد رقم موجود در ستون متن شعر (Poem) در فایل shereno.csv را به‌دست آورید.

مثال۱: جمله Are there any good horror movies in 2016 دارای ۴ رقم است.

412 532
Plain text
  1. با استفاده از فایل stopwords.txt تعداد stopword‌های استفاده شده در متن شعر (Poem) در فایل shereno.csv را به‌دست آورید.
3423
Plain text

خروجی

برای ارسال پاسخ، جواب هر سوال را مشابه‌ مثال، در یک سطر از یک فایل text بنویسید. در نهایت یک فایل سه خطی با نام output.txt را برای ما بارگذاری کنید.

در صورتی که جواب سوالی را نمی‌دانید در سطر مربوطه ۱- وارد کنید.

نمونه خروجی ۱

3453
412 532
3423
Plain text

توضیحات

در خط i ام جواب سوال i ام نوشته شده‌است.

نمونه خروجی ۲

3256
-1
-1
Plain text

توضیحات

چون پاسخ سوال دوم و سوم را نمی‌دانستید، به جای آن عدد ۱- نوشته‌اید!


ارسال پاسخ برای این سؤال
فایلی انتخاب نشده است.