از این پس، به کمک یادگیری ماشین (Machine Learning) میتوانید تصویر هرچیزی را ترسیم کنید.
فرض کنید برای کامپیوتر یک جمله مینویسید و کامپیوتر تصویر آن را برای شما رسم میکند. بهعنوان مثال به کامپیوتر میگویید: «مسی به همراه آرژانتین قهرمان جام جهانی شد» را برایم ترسیم کن! تصویر زیر، خروجی خلاقیت کامپیوتر است:
بیشتر شبیه معجزه است! به جزئیات تصویر دقت کنید. تتوهای مسی، عضلات دست راست، پیراهن آرژانتین، لوگوی آدیداس، لوگوی فدراسیون فوتبال آرژانتین، تماشاچیان پشت صحنه، همه و همه نشان از توانایی بالای یادگیری ماشین در تولید تصویر از روی تنها یک جملهی کوتاه دارد.
مانند هر پروژهی دیگری در فضای یادگیری ماشین، تبدیل متن به عکس نیز نیاز به دادههای بسیار زیادی دارد. دانشمندان و مهندسان یادگیری ماشین، دادههای موردنیاز برای این مسئله را از دنیای وب استخراج میکنند. آنها با خراش و خزش وب (web crawling and web scraping) عکسها را به همراه تگ alt ذخیره میکنند. در HTML تگ alt هر تصویر، حاوی متنی است که آن تصویر را توصیف میکند. از آنجایی که یکی از کاربردهای این تگها کمک به موتورهای جستجو در فرایند نمایهگذاری و امتیازدهی سایتها برای سئو است، بنابراین به اطلاعات موجود در این تگها میتوان اعتماد کرد. هرچند استفاده از تگهای alt نگرانیها و چالشهایی را نیز به همراه دارد، اما در حال حاضر بهترین منبع برای جمعآوری دادههای حجیم موردنیاز برای مسائل text-to-image تگهای alt هستند.
پس از جمعآوری داده، با استفاده از یادگیری عمیق که خود زیرمجموعهی یادگیری ماشین تلقی میشود، المانهای موجود در عکسهای مجموعهداده شناسایی میشوند. بهعنوان مثال توپ، زمین چمن، لیونل مسی یا حتی سایر المانهای موجود در تصاویر مثل قطار، سگ، آسمانخراش و صندلی مواردی هستند که یادگیری عمیق آنها را در تصاویر پیدا میکند.
حالا نیاز به فضایی داریم که المانهای مختلف در آن مدل شوند. بهعنوان مثال تصاویر لیونل مسی و پیراهن آرژانتین، بارسلونا و پاریسسنتژرمن و توپ فوتبال در کنار همدیگر قرار بگیرند. در عوض تصاویر پرندگان و هواپیما نیز نزدیک به یکدیگر ولی دور از تصاویر با زمینهی فوتبال باشند. این فضا میتواند هر المان را با یک بردار ۵۰۰تایی نشان دهد. یعنی هر مفهوم یک بردار با ۵۰۰ عدد است که دوری و نزدیکی این بردارها، دوری و نزدیکی مفاهیم در دنیای واقعی را نشان میدهد.
اکنون به کمک یادگیری ماشین و شبکه مصنوعی عمیق میتوان مدل دیگری برای فهم و درک متن توسعه داد که مفهوم یک جمله را درک و المانهای درون جمله را پیدا کند. پس از آنکه المانهای درون متن پیدا شد، میتوانیم آنها را در فضایی که در بند قبل به آن اشاره کردیم، ترکیب کنیم. به عبارت بهتر در همین مرحله است که مفهوم «مسی» با مفهوم «آرژانتین» و «قهرمانی در جام جهانی» ترکیب میشوند.
پس از اینکه ترکیب مفاهیم مختلف شکل گرفت، وقت آن است که تصویر مفهوم جدید را تولید کنیم. این بار نیز به کمک یادگیری ماشین، سیستمی آموزش داده میشود که از همان فضایی که پیشتر معرفی شد، استفاده کند و عکسهای جدیدی تولید کند.
نکته حائز اهمیت این است که این فرایندِ بسیار پیچیده و سنگین عمدتاً توسط کامپیوترهایی با توان محاسباتی بالا قابلانجام است و مغز انسان بهسختی میتواند همهی آنها را با هم انجام دهد.
شاید نتوان واژهی هنر و خلاقیت را به فرایند تولید عکس از روی متن اطلاق کرد، اما قطعاً این پیشرفت در تکنولوژی، توانایی بالا و معجزهآسای یادگیری ماشین را نشان میدهد. سیستم DALL_E 2 از مؤسسه OpenAI و همچنین Imagen از گوگل، نمونهای از سامانههای تبدیل متن به عکس هستند که اخیراً توجه بسیاری از علاقهمندان به این حوزه را به خود جلب کردهاند. شما همچنین میتوانید بهصورت آنلاین از این سایت برای تولید عکسهای دلخواهتان استفاده کنید.
اگر دوست دارید شما هم چنین برنامههای هوشمندی را توسعه دهید، کافیست یادگیری را با دورهی جامپ تکنیکال یادگیری ماشین کوئراکالج شروع کنید. این دوره مقدمهای برای پیشرفت در دنیای یادگیری ماشین است که در ادامهی آن میتوانید با کسب مهارتهایی که به آنها اشاره شد، به دنیای کاربردهای پیشرفته و پیچیدهی یادگیری ماشین قدم بگذارید.