یادگیری ماشینی (ML)، زیرشاخهای از هوش مصنوعی، به رایانهها میآموزد تا با ارائه نمونههایی از ورودیها و خروجیهای مورد نظر، وظایف مبتنی بر دادههای ساختاریافته، زبان، صدا یا تصاویر را حل کنند. این با برنامه نویسی رایانه ای سنتی متفاوت است، جایی که برنامه نویسان دنباله ای از دستورالعمل های خاص را می نویسند. در اینجا، مدل ML یاد می گیرد برای تولید خروجی های مطلوب با تنظیم دستگیره های متعدد آن – اغلب در میلیون ها.
ML سابقه ای در توسعه روش هایی با ویژگی های دست ساز دارد که ممکن است فقط برای مشکلات خاص و محدود کار کند. چندین نمونه از این دست وجود دارد. در متن، طبقه بندی یک سند به عنوان علمی یا ادبی ممکن است با شمارش تعداد دفعاتی که کلمات خاصی ظاهر می شوند حل شود. در صدا، متن گفتاری با تبدیل صدا به نمایش فرکانس زمانی تشخیص داده می شود. در تصاویر، با بررسی وجود الگوهای لبهشکل خاص خودرو، ممکن است یک خودرو پیدا شود.
چنین ویژگیهای دست ساز با طبقهبندیکنندههای یادگیری ساده یا کم عمق که معمولاً تا دهها هزار دستگیره دارند، ترکیب میشوند. در اصطلاح فنی به این دستگیره ها پارامتر می گویند.
شبکه های عصبی عمیق
در بخش اول دهه 2010، شبکههای عصبی عمیق (DNN) با طوفان ML را اشغال کردند و جایگزین خط لوله کلاسیک ویژگیهای دست ساز و طبقهبندیکنندههای ساده شدند. DNN ها یک سند یا تصویر کامل را دریافت می کنند و یک خروجی نهایی را تولید می کنند، بدون اینکه نیازی به تعیین روش خاصی برای استخراج ویژگی ها باشد.
در حالی که این مدل های عمیق و بزرگ در گذشته وجود داشته اند، اندازه بزرگ آنها – میلیون ها پارامتر – مانع استفاده از آنها شده است. ظهور مجدد DNN ها در دهه 2010 به در دسترس بودن داده های مقیاس بزرگ و تراشه های محاسباتی موازی سریع به نام واحدهای پردازش گرافیکی نسبت داده می شود.
علاوه بر این، مدلهای مورد استفاده برای متن یا تصاویر هنوز متفاوت بودند: شبکههای عصبی تکراری در درک زبان رایج بودند در حالی که شبکههای عصبی کانولوشنال (CNN) در بینایی کامپیوتری، یعنی درک ماشینی از دنیای بصری محبوب بودند.
‘ توجه تنها چیزی است که نیاز دارید
در مقالهای پیشگام با عنوان «توجه همه آن چیزی است که شما نیاز دارید» که در سال 2017 منتشر شد، تیمی در Google ترانسفورماتورها را پیشنهاد کردند – یک معماری DNN که امروزه در همه روشها محبوبیت پیدا کرده است: تصویر، صدا و زبان. مقاله اصلی ترانسفورماتورهایی را برای وظیفه ترجمه یک جمله از یک زبان به زبان دیگر پیشنهاد کرد، مشابه کاری که Google Translate هنگام تبدیل از مثلا انگلیسی به هندی انجام می دهد.
ترانسفورماتور یک شبکه عصبی دو بخشی است. بخش اول یک «رمزگذار» است که جمله ورودی را در زبان مبدأ (مثلاً انگلیسی) وارد میکند. دومی “رمزگشا” است که جمله ترجمه شده را در زبان مقصد (هندی) تولید می کند.
رمزگذار هر کلمه در جمله مبدأ را به یک شکل عددی انتزاعی تبدیل می کند که معنای کلمه را در متن جمله می گیرد و آن را در یک بانک حافظه ذخیره می کند. درست مانند یک شخص که می نویسد یا صحبت می کند، رمزگشا یک کلمه را در یک زمان با اشاره به آنچه تاکنون تولید شده است و با نگاه کردن به بانک حافظه برای یافتن کلمه مناسب تولید می کند. هر دوی این فرآیندها از مکانیزمی به نام «توجه» استفاده میکنند، از این رو نام مقاله به آن میرسد.
یک پیشرفت کلیدی نسبت به روش های قبلی، توانایی ترانسفورماتور برای ترجمه صحیح جملات طولانی یا پاراگراف ها است.
استفاده از ترانسفورماتورها متعاقباً منفجر شد. برای مثال، حرف بزرگ «T» در ChatGPT مخفف «ترانسفورماتور» است.
ترانسفورماتورها همچنین در بینایی کامپیوتری محبوب شده اند: آنها به سادگی یک تصویر را به تکه های کوچک مربعی برش می دهند و آنها را مانند کلمات در یک جمله ردیف می کنند. با انجام این کار و پس از آموزش بر روی مقادیر زیاد داده، یک ترانسفورماتور می تواند عملکرد بهتری نسبت به CNN ها ارائه دهد. امروزه مدلهای ترانسفورماتور بهترین رویکرد را برای طبقهبندی تصویر، تشخیص و تقسیمبندی اشیا، تشخیص عمل و بسیاری از وظایف دیگر تشکیل میدهند.
توانایی ترانسفورماتورها برای جذب هر چیزی برای ایجاد مدلهای بینایی و زبان مشترک مورد سوء استفاده قرار گرفته است که به کاربران امکان میدهد یک تصویر را جستجو کنند (مثلاً جستجوی تصویر Google)، یک تصویر را توصیف کنند و حتی به سؤالات مربوط به تصویر پاسخ دهند.
“توجه” چیست؟
توجه در ML به یک مدل اجازه می دهد تا یاد بگیرد که چقدر باید به ورودی های مختلف اهمیت داده شود. در مثال ترجمه، توجه به مدل اجازه میدهد تا هنگام تصمیمگیری کلمه بعدی، کلمات را از بانک حافظه انتخاب یا وزن کند. در حین توصیف یک تصویر، توجه به مدلها اجازه میدهد تا در هنگام تولید کلمه بعدی به قسمتهای مربوطه تصویر نگاه کنند.
یکی از جنبههای جذاب مدلهای مبتنی بر توجه، توانایی آنها برای کشف خود، با تجزیه بسیاری از دادهها است. در مورد ترجمه، هرگز به مدل گفته نمی شود که کلمه “سگ” در انگلیسی به معنای “कुत्ता” در هندی است. در عوض، با دیدن چندین جفت جملات آموزشی که در آن «سگ» و «कुत्ता» با هم ظاهر می شوند، این ارتباط ها را پیدا می کند.
مشاهدات مشابهی برای شرح تصویر اعمال می شود. برای تصویری از “پرنده ای که بر فراز آب پرواز می کند”، هرگز به مدل گفته نمی شود که کدام ناحیه از تصویر با “پرنده” و کدام “آب” مطابقت دارد. درعوض، با آموزش چندین جفت تصویر-کپشن با کلمه “پرنده”، الگوهای رایجی را در تصویر کشف می کند تا چیزی که در حال پرواز است را با “پرنده” مرتبط کند.
ترانسفورماتورها مدل های توجه روی استروئیدها هستند. آنها دارای چندین لایه توجه در داخل رمزگذار هستند تا زمینه معناداری را در سراسر جمله ورودی یا تصویر و از رمزگشا به رمزگذار هنگام تولید یک جمله ترجمه شده یا توصیف یک تصویر ارائه دهند.
مقیاس میلیارد و تریلیون
در سال گذشته، مدلهای ترانسفورماتور بزرگتر شدهاند و با دادههای بیشتری نسبت به قبل تمرین میکنند. هنگامی که این غول پیکرها بر روی متن نوشته شده آموزش می بینند، مدل های زبان بزرگ (LLM) نامیده می شوند. ChatGPT از صدها میلیارد پارامتر استفاده می کند در حالی که GPT-4 از صدها تریلیون پارامتر استفاده می کند.
در حالی که این مدلها روی کارهای ساده مانند پر کردن جاهای خالی یا پیشبینی کلمه بعدی آموزش داده میشوند، اما در پاسخ به سؤالات، ساختن داستان، خلاصهسازی اسناد، نوشتن کد و حتی حل مشکلات کلمه ریاضی به صورت مرحلهای بسیار خوب هستند. ترانسفورماتورها نیز پایه و اساس هستند مولد مدل هایی که تصاویر و صداهای واقعی ایجاد می کنند. کاربرد آنها در حوزه های مختلف، ترانسفورماتورها را به یک مدل بسیار قدرتمند و جهانی تبدیل می کند.
با این حال، نگرانی هایی وجود دارد. جامعه علمی هنوز متوجه نشده است که چگونه این مدل ها را به دقت ارزیابی کند. همچنین مواردی از “توهم” وجود دارد که در آن مدل ها ادعاهای مطمئن اما اشتباهی دارند. ما باید فوراً به نگرانیهای اجتماعی، مانند حفظ حریم خصوصی دادهها و نسبت دادن به کارهای خلاقانه، که در نتیجه استفاده از آنها به وجود میآیند، رسیدگی کنیم.
در عین حال، با توجه به پیشرفت فوقالعاده، تلاشهای مداوم برای ایجاد حفاظهایی که استفاده از آنها را هدایت میکند، و کار بر روی استفاده از این مدلها برای نتایج مثبت (مثلاً در مراقبتهای بهداشتی، آموزشی و کشاورزی)، خوشبینی بیجا نخواهد بود.
دکتر ماکارند تاپسوی، دانشمند ارشد یادگیری ماشین در Wadhwani AI، یک سازمان غیرانتفاعی در استفاده از هوش مصنوعی برای منافع اجتماعی، و استادیار گروه بینایی کامپیوتر در IIIT حیدرآباد، هند است.