قوانین شرکت در مسابقات

توضیحات آزمون در بلاگ کوئرا.

در زمان مسابقه می‌توانید سوال‌های خود را از قسمت "سوال بپرسید" مطرح کنید.

تا نیم ساعت پس از پایان مسابقه، کد سوالات خود را در بخش "آپلود کد سوالات پاسخ داده شده" آپلود کنید.

دادگان مربوط به سوال ‌"پرتو آوا ندارد" دیروز در اختیار شما قرار داده بودیم و در صورت سوال رمز فایل train در اختیار شما قرار دارد(همچنان می‌توانید لینک دانلود را در بلاگ کوئرا ببینید).

آزمون زبان شکسپیر


علی بعد از حل سوالات ذهنی خود راجع به جهان‌‌های موازی تصمیم گرفته تا مهاجرت کند و با استاد دانشکده فیزیک دانشگاه MIT در این باره بحث کند! اما برای مهاجرت نیاز دارد زبان خود را تقویت کند. نوشتار انگلیسی او پر از غلط املایی است!!!

از آنجا که علی فرد تنبلیست تصمیم می گیرد تا یک مدل احتمالاتی برای تصحیح نوشتار (Auto correct) ایجاد کند. به این ترتیب دیگر نیاز به تمرین ندارد. او برای ساختن مدل خود از متن‌های شکسپیر کمک می گیرد!! متنی که در اختیار شما قرار گرفته حدودا شامل ۶۱۱۶ کلمه‌ی متفاوت از شکسپیر کبیر است.

مدل احتمالاتی تصحیح خودکار کلمات🔗

علی ابتدا همه‌ی کلمات را lower case کرده و کلمات یکتا را جدا می کند. سپس سه تابع زیر را برای ویرایش کلمات پیاده می‌کند.این سه تابع سه روش برای تصحیح یک کلمه هستند: ‍‍‍

  • delete_letter: همه‌ی جایگشت کلماتی (با معنی و بی معنی) که با حذف یک حرف از کلمه تشکیل می‌شود را باز میگرداند.
  • replace_letter: همه‌ی جایگشت کلماتی (با معنی و بی معنی) که با جایگزین کردن یک حرف از کلمه تشکیل می‌شود را باز میگرداند.
  • insert_letter:همه‌ی کلماتی (با معنی و بی معنی) که با اضافه کردن یک حرف به کلمه تشکیل می‌شود را باز میگرداند.

مثلا به ازای ورودی ate به تابع delete_letter خروجی همه‌ی جایگشت‌های حذف یک حرف از کلمه یعنی te,ae,at خواهد بود.

>>> delete_letter('ate')
['at','ae','te']
Python

به ازای ورودی at به تابع replace_letter خروجی همه‌ی جایگشت‌های جایگزینی یکی از حروف هستند. bt,ct,dt,...,zt,aa,ab,ac,...,az

>>> replace_letter('at')
['bt','ct','dt',...,'zt','aa','ab','ac',...,'az']
Python

به ازای ورودی at به تابع insert_letter خروجی همه‌ی جایگشت‌های اضافه شدن یک حرف به این کلمه است. در واقع کلمات جدید به یکی از فرمت‌های xat,axt,atx هستند که x می‌تواند هر یک از حروف الفبا انگلیسی باشد.

دقت کنید خروجی این توابع همه‌ی جایگشت‌ها به جز خود کلمه هستند .با در اختیار داشتن این سه تابع علی می‌تواند به ازای هر کلمه‌ی ورودی همه‌ی کلماتی (با معنی و بی‌معنی) که از طریق اعمال یکی از سه روش بالا به وجود می‌آیند را تولید کند. مثلا در تابع زیر همه‌ی جایگشت‌های یک کلمه که از طریق روش‌های بالا ممکن است تولید شوند، به عنوان خروجی به دست می‌آید.

def edit_one_letter(word):
 """
    Input:
        word: the string/word for which we will generate all possible words that are one edit away.
    Output:
        edit_one_set: a set of words with one possible edit. Please return a set. and not a list.
    """
    edit_one_set = set()
    edit_one_set.update(delete_letter(word))
    edit_one_set.update(replace_letter(word))
    edit_one_set.update(insert_letter(word))
    return edit_one_set
Python

تابع edit_two_letters نیز همه‌ی جایگشت‌های ممکن با استفاده از دقیقا دو مورد از توابع ویرایش متن را خروجی می‌دهد. یعنی خروجی حاصل اعمال دو تا از توابع ویرایش بر کلمه است.

برای تصحیح خودکار یک کلمه، ابتدا همه‌ی کلماتی که می‌توان آن‌ها را با یک ویرایش و یا دو ویرایش از کلمه‌ی ورودی ساخت را مشخص می‌کنیم. سپس کلماتی که در متن شکسپیر وجود ندارند را به عنوان کلمات بی معنی حذف می‌کنیم. در این فرایند استفاده از توابع insert و delete هر یک هزینه برابر ۱ واحد دارد. استفاده از replace اما هزینه برابر ۲ واحد دارد. بنابراین کلمات ساخته شده از کلمه‌ی اصلی هر یک هزینه‌ای دارند(این هزینه عددی بین ۱ تا ۴ خواهد بود!). بعد کلمه‌ای که با کمترین هزینه ویرایش از روی کلمه‌ی اصلی ساخته شده را به عنوان پاسخ صحیح انتخاب می‌کنیم. اگر خروجی چند کلمه با هزینه ویرایش مینیمم خروجی داد، کلمه‌ای را انتخاب می‌کنیم که احتمال حضورش در متن بیشتر است. احتمال حضور یک کلمه یعنی تعداد دفعات حضور کلمه در متن تقسیم بر تعداد کل کلمات. به این روش ایجاد شباهت بین کلمات minimum edit distance می‌گویند.

به شما فایل جملات شکسپیر و یک فایل پروژه تحویل داده می‌شود. در این فایل نمی‌توانید کتابخانه‌ای اضافه کنید. شما باید توابع خواسته شده را تکمیل کنید. دقت کنید فقط جاهایی که از شما خواسته شده را تغییر دهید و در تعاریف توابع پیش‌فرض تغییری ایجاد نکنید وگرنه در فرایند داوری به مشکل خواهید خورد.

فایل پروژه را از [اینجا]( این لینک ) دانلود کنید. در پروژه یک فایل submit.py وجود دارد. ما تابع autoCorrect از این فایل را در داوری صدا می زنیم. این تابع یک کلمه را به عنوان ورودی گرفته و کلمه‌ی با املای درست با شرایط ذکر شده را پس می‌دهد.

>>> autoCorrect('flw')
'flow'
Python

در نهایت فقط فایل submit.py را آپلود کنید.

ارسال پاسخ برای این سؤال
در حال حاضر شما دسترسی ندارید.