پیش‌گفتار


یادگیری ماشین زیرشاخه‌ای از هوش مصنوعی است، که در سال‌های اخیر باعث کمک به ارتقای بسیاری از فرآیندهای خودکار مربوط به داده در صنعت و تخصص‌های متفاوت شده است. در یادگیری ماشین قرار است با استفاده از داده، الگویی را یاد بگیریم و بتوانیم با آن روی هر داده‌ی جدیدی پیش‌بینی انجام دهیم. امروزه کاربردهای آن در صنعت استفاده گسترده‌ای دارد؛ از جمله سیستم‌های پیشنهاددهنده می‌توان به تشخیص بیماری‌ها، دسته‌بندی مشتری‌ها، تشخیص کلاه‌برداری و تخلّف، پیش‌بینی قیمت سهام، سیستم‌های تشخیص اشیاء مشکوک در فیلم‌های مداربسته و بسیاری مثال دیگر اشاره کرد.

مثلا با بررسی داده‌‌های کاربران یک سایت فروش آنلاین می‌توانیم به آن‌ها کالاهایی را پیشنهاد دهیم که با درصد خوبی مطمئن هستیم آن‌ها را خواهند خرید؛ و به این طریق سود را افزایش دهیم. یا می‌توانیم در داده‌های مالی بانک‌ها کلاه‌برداری را تشخیص و گزارش دهیم. یا با استفاده از اطلاعات مربوط به تومورها، حاد یا بی‌خطر بودن آن‌ها را در مراحل اولیه بیماری تشخیص دهیم.

اما این فرآیند چطور صورت می‌گیرد؟ ابزار اولیه برای کار با داده، ابزارهای آماری هستند. علم آمار به مطالعه‌ی نمونه‌هایی از یک جامعه می‌پردازد و سعی دارد با بررسی یک نمونه حقایقی را در مورد جامعه استنباط کند. آمار از داده‌های تجربی که توسط یک رخداد تصادفی تولید شده، در جهت استنباط در مورد ویژگی‌های قطعی آن رخداد استفاده می‌کند؛ در حالی که هم زمان میزان عدم قطعیت در مورد این استنباط را نیز کمّی می‌کند. بدیهی است که در چنین استدلال‌هایی رد پایی از عدم قطعیت نیز دیده می‌شود. در روش‌های علمی چارچوب بررسی مسائل در عدم حضور قطعیت با احتمال صورت می‌گیرد. احتمال شاخه‌ای از ریاضیات است که هدف آن صورت‌بندی ریاضی از تصادف و شانس است. پس تا اینجا یکی از ابزارهای اولیه برای کار با داده، آمار و احتمال است. توضیح تصویر

اما این همه‌ی ماجرا نیست! در مسائلی که در صنعت با آن مواجه هستیم، هدف از بررسی داده، پاسخ به سوالی مهم است که این پاسخ به راحتی از مشاهدات موجود به دست نمی‌آید. مثلا می‌خواهیم با داده‌هایی که در گذشته تا به حال از قیمت سهام یک شرکت داریم قیمت آن را در آینده پیش‌بینی کنیم و در صورت سودآور بودن روی آن سرمایه‌گذاری کنیم. در اینجا به دلیل حجم زیاد داده و محدودیت‌های زمانی و محاسباتی، تحلیل‌ها باید از انسان به ماشین محول شود. اما همچنان به علت حجم داده و نوع مسائل حول آن نمی‌توان به صورت صریح برنامه‌ای بنویسیم که اجرای آن منجر به رسیدن به پاسخ سوالمان شود و به چارچوبی نیازمندیم که بتوانیم به صورت خودکار از داده، اطلاعات بیرون بکشیم. اینجاست که هوش‌مصنوعی نقش اساسی بازی می‌کند. هدف هوش‌مصنوعی پیاده‌سازی هوش یا هر رفتار هوشمندانه در ماشین است. شاخه‌ای از هوش‌مصنوعی که ما با آن درگیر خواهیم شد یادگیری ماشین است.

یادگیری ماشین سعی دارد تا فرآیند یادگیری هوشمندانه را در ماشین پیاده‌سازی کند. همانطور که اشاره شد، هدف از یادگیری ماشین استخراج الگویی معنادار از داده‌‌ها است، به گونه‌ای که این الگو قابل تعمیم به مشاهدات جدید نیز باشد. توضیح تصویر در این درس می‌خواهیم قدم در این مسیر بگذاریم که از یک مجموعه نمونه به مدلی برای تصمیم‌گیری برسیم و بتوانیم سوالات خوبی را در مورد مسائل پیرامون آن داده پاسخ دهیم. ابتدا اندکی با مفاهیم احتمال و آمار دست و پنجه نرم می‌کنیم و مبانی برای تحلیل اکتشافی داده ارائه ‌می‌دهیم. منظور از تحلیل اکتشافی داده هر نوع خلاصه‌سازی داده به کمک ابزارهای آماری و در نهایت نمایش بصری آن است. در ادامه مقدمه‌ای بر یادگیری ماشین گفته می‌شود و مبانی و انواع یادگیری را بررسی می‌کنیم. و در نهایت به معرفی چندین الگوریتم یادگیری در مسائل رگرسیون و دسته‌بندی می‌پردازیم. در پایان درس نیز تلاش خواهیم کرد تا چالش‌هایی در دنیای واقعی را به کمک دانشی که کسب کرده‌ایم حل کنیم. توضیح تصویر