یادگیری ماشین زیرشاخهای از هوش مصنوعی است، که در سالهای اخیر باعث کمک به ارتقای بسیاری از فرآیندهای خودکار مربوط به داده در صنعت و تخصصهای متفاوت شده است. در یادگیری ماشین قرار است با استفاده از داده، الگویی را یاد بگیریم و بتوانیم با آن روی هر دادهی جدیدی پیشبینی انجام دهیم. امروزه کاربردهای آن در صنعت استفاده گستردهای دارد؛ از جمله سیستمهای پیشنهاددهنده میتوان به تشخیص بیماریها، دستهبندی مشتریها، تشخیص کلاهبرداری و تخلّف، پیشبینی قیمت سهام، سیستمهای تشخیص اشیاء مشکوک در فیلمهای مداربسته و بسیاری مثال دیگر اشاره کرد.
مثلا با بررسی دادههای کاربران یک سایت فروش آنلاین میتوانیم به آنها کالاهایی را پیشنهاد دهیم که با درصد خوبی مطمئن هستیم آنها را خواهند خرید؛ و به این طریق سود را افزایش دهیم. یا میتوانیم در دادههای مالی بانکها کلاهبرداری را تشخیص و گزارش دهیم. یا با استفاده از اطلاعات مربوط به تومورها، حاد یا بیخطر بودن آنها را در مراحل اولیه بیماری تشخیص دهیم.
اما این فرآیند چطور صورت میگیرد؟ ابزار اولیه برای کار با داده، ابزارهای آماری هستند. علم آمار به مطالعهی نمونههایی از یک جامعه میپردازد و سعی دارد با بررسی یک نمونه حقایقی را در مورد جامعه استنباط کند. آمار از دادههای تجربی که توسط یک رخداد تصادفی تولید شده، در جهت استنباط در مورد ویژگیهای قطعی آن رخداد استفاده میکند؛ در حالی که هم زمان میزان عدم قطعیت در مورد این استنباط را نیز کمّی میکند. بدیهی است که در چنین استدلالهایی رد پایی از عدم قطعیت نیز دیده میشود. در روشهای علمی چارچوب بررسی مسائل در عدم حضور قطعیت با احتمال صورت میگیرد. احتمال شاخهای از ریاضیات است که هدف آن صورتبندی ریاضی از تصادف و شانس است. پس تا اینجا یکی از ابزارهای اولیه برای کار با داده، آمار و احتمال است.
اما این همهی ماجرا نیست! در مسائلی که در صنعت با آن مواجه هستیم، هدف از بررسی داده، پاسخ به سوالی مهم است که این پاسخ به راحتی از مشاهدات موجود به دست نمیآید. مثلا میخواهیم با دادههایی که در گذشته تا به حال از قیمت سهام یک شرکت داریم قیمت آن را در آینده پیشبینی کنیم و در صورت سودآور بودن روی آن سرمایهگذاری کنیم. در اینجا به دلیل حجم زیاد داده و محدودیتهای زمانی و محاسباتی، تحلیلها باید از انسان به ماشین محول شود. اما همچنان به علت حجم داده و نوع مسائل حول آن نمیتوان به صورت صریح برنامهای بنویسیم که اجرای آن منجر به رسیدن به پاسخ سوالمان شود و به چارچوبی نیازمندیم که بتوانیم به صورت خودکار از داده، اطلاعات بیرون بکشیم. اینجاست که هوشمصنوعی نقش اساسی بازی میکند. هدف هوشمصنوعی پیادهسازی هوش یا هر رفتار هوشمندانه در ماشین است. شاخهای از هوشمصنوعی که ما با آن درگیر خواهیم شد یادگیری ماشین است.
یادگیری ماشین سعی دارد تا فرآیند یادگیری هوشمندانه را در ماشین پیادهسازی کند. همانطور که اشاره شد، هدف از یادگیری ماشین استخراج الگویی معنادار از دادهها است، به گونهای که این الگو قابل تعمیم به مشاهدات جدید نیز باشد.
در این درس میخواهیم قدم در این مسیر بگذاریم که از یک مجموعه نمونه به مدلی برای تصمیمگیری برسیم و بتوانیم سوالات خوبی را در مورد مسائل پیرامون آن داده پاسخ دهیم. ابتدا اندکی با مفاهیم احتمال و آمار دست و پنجه نرم میکنیم و مبانی برای تحلیل اکتشافی داده ارائه میدهیم. منظور از تحلیل اکتشافی داده هر نوع خلاصهسازی داده به کمک ابزارهای آماری و در نهایت نمایش بصری آن است. در ادامه مقدمهای بر یادگیری ماشین گفته میشود و مبانی و انواع یادگیری را بررسی میکنیم. و در نهایت به معرفی چندین الگوریتم یادگیری در مسائل رگرسیون و دستهبندی میپردازیم. در پایان درس نیز تلاش خواهیم کرد تا چالشهایی در دنیای واقعی را به کمک دانشی که کسب کردهایم حل کنیم.