خانه توسعه‌دهنده تکنولوژی هوش مصنوعی و تحلیل داده آرژانتین قهرمان جام جهانی ۲۰۲۲ قطر شد!

آرژانتین قهرمان جام جهانی ۲۰۲۲ قطر شد!

۱۲ آذر ۱۴۰۱

زمان مطالعه: 3 دقیقه

1351

از این پس، به کمک یادگیری ماشین (Machine Learning) می‌توانید تصویر هرچیزی را ترسیم کنید.

فرض کنید برای کامپیوتر یک جمله می‌نویسید و کامپیوتر تصویر آن را برای شما رسم می‌کند. به‌عنوان مثال به کامپیوتر می‌گویید: «مسی به همراه آرژانتین قهرمان جام جهانی شد» را برایم ترسیم کن! تصویر زیر، خروجی خلاقیت کامپیوتر است:

بیشتر شبیه معجزه است! به جزئیات تصویر دقت کنید. تتو‌های مسی، عضلات دست راست، پیراهن آرژانتین، لوگوی آدیداس، لوگوی فدراسیون فوتبال آرژانتین، تماشاچیان پشت صحنه، همه و همه نشان از توانایی بالای یادگیری ماشین در تولید تصویر از روی تنها یک جمله‌ی کوتاه دارد.

مانند هر پروژه‌ی دیگری در فضای یادگیری ماشین، تبدیل متن به عکس نیز نیاز به داده‌های بسیار زیادی دارد. دانشمندان و مهندسان یادگیری ماشین، داده‌های موردنیاز برای این مسئله را از دنیای وب استخراج می‌کنند. آن‌ها با خراش و خزش وب (web crawling and web scraping) عکس‌ها را به همراه تگ alt ذخیره می‌کنند. در HTML تگ alt هر تصویر، حاوی متنی است که آن تصویر را توصیف می‌کند. از آنجایی که یکی از کاربردهای این تگ‌ها کمک به موتورهای جستجو در فرایند نمایه‌گذاری و امتیازدهی سایت‌ها برای سئو است، بنابراین به اطلاعات موجود در این تگ‌ها می‌توان اعتماد کرد. هرچند استفاده از تگ‌های alt نگرانی‌ها و چالش‌هایی را نیز به همراه دارد، اما در حال حاضر بهترین منبع برای جمع‌آوری داده‌های حجیم موردنیاز برای مسائل text-to-image تگ‌های alt هستند.

پس از جمع‌آوری داده، با استفاده از یادگیری عمیق که خود زیرمجموعه‌ی یادگیری ماشین تلقی می‌شود، المان‌های موجود در عکس‌های مجموعه‌داده شناسایی می‌شوند. به‌عنوان مثال توپ، زمین چمن، لیونل مسی یا حتی سایر المان‌های موجود در تصاویر مثل قطار، سگ، آسمان‌خراش و صندلی مواردی هستند که یادگیری عمیق آن‌ها را در تصاویر پیدا می‌کند.

حالا نیاز به فضایی داریم که المان‌های مختلف در آن مدل شوند. به‌عنوان مثال تصاویر لیونل مسی و پیراهن آرژانتین، بارسلونا و پاریس‌سنت‌ژرمن و توپ فوتبال در کنار همدیگر قرار بگیرند. در عوض تصاویر پرندگان و هواپیما نیز نزدیک به یکدیگر ولی دور از تصاویر با زمینه‌ی فوتبال باشند. این فضا می‌تواند هر المان را با یک بردار ۵۰۰تایی نشان دهد. یعنی هر مفهوم یک بردار با ۵۰۰ عدد است که دوری و نزدیکی این بردارها، دوری و نزدیکی مفاهیم در دنیای واقعی را نشان می‌دهد.

اکنون به کمک یادگیری ماشین و شبکه‌ مصنوعی عمیق می‌توان مدل دیگری برای فهم و درک متن توسعه داد که مفهوم یک جمله را درک و المان‌های درون جمله را پیدا کند. پس از آنکه المان‌های درون متن پیدا شد، می‌توانیم آن‌ها را در فضایی که در بند قبل به آن اشاره کردیم، ترکیب کنیم. به عبارت بهتر در همین مرحله است که مفهوم «مسی» با مفهوم «آرژانتین» و «قهرمانی در جام جهانی» ترکیب می‌شوند.

پس از اینکه ترکیب مفاهیم مختلف شکل گرفت، وقت آن است که تصویر مفهوم جدید را تولید کنیم. این بار نیز به کمک یادگیری ماشین، سیستمی آموزش داده می‌شود که از همان فضایی که پیشتر معرفی شد، استفاده کند و عکس‌های جدیدی تولید کند.

نکته‌ حائز اهمیت این است که این فرایندِ بسیار پیچیده و سنگین عمدتاً توسط کامپیوترهایی با توان محاسباتی بالا قابل‌انجام است و مغز انسان به‌سختی می‌تواند همه‌ی آن‌ها را با هم انجام دهد.

شاید نتوان واژه‌ی هنر و خلاقیت را به فرایند تولید عکس از روی متن اطلاق کرد، اما قطعاً این پیشرفت در تکنولوژی، توانایی بالا و معجزه‌آسای یادگیری ماشین را نشان می‌دهد. سیستم DALL_E 2 از مؤسسه OpenAI و همچنین Imagen از گوگل، نمونه‌ای از سامانه‌های تبدیل متن به عکس هستند که اخیراً توجه بسیاری از علاقه‌مندان به این حوزه را به خود جلب کرده‌اند. شما همچنین می‌توانید به‌صورت آنلاین از این سایت برای تولید عکس‌های دلخواهتان استفاده کنید.

اگر دوست دارید شما هم چنین برنامه‌های هوشمندی را توسعه دهید، کافیست یادگیری را با دوره‌ی جامپ تکنیکال یادگیری ماشین کوئراکالج شروع کنید. این دوره مقدمه‌ای برای پیشرفت در دنیای یادگیری ماشین است که در ادامه‌ی آن می‌توانید با کسب مهارت‌هایی که به آن‌ها اشاره شد، به دنیای کاربردهای پیشرفته و پیچیده‌ی یادگیری ماشین قدم بگذارید.

مشاهده دوره‌ی جامپ تکنیکال یادگیری ماشین