محققان مایکروسافت اخیرا مقاله ای را با هدف گردآوری قابلیت های ChatGPT و مدل های پایه تصویری مانند Stable Diffusion منتشر کرده اند. این معماری که “چت بصری GPT” نامیده می شود، می خواهد شکاف بین متن به تصویر و تولید زبان طبیعی را پر کند.
همانطور که توسط هدف، به نظر می رسد این راهی برای الگوریتم های متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر ترکیب میکند و یک بسته جامع ارائه میدهد که کاستیهای هر دو این پلتفرمها را پوشش میدهد. با آوردن پردازش زبان طبیعی به مدلهای تولید تصویر مبتنی بر پارامتر، میتوان با هوش مصنوعی تعامل بیشتری داشت. ارگانیک. آلی مسیر.
ChatGPT بصری چگونه کار می کند؟
به زبان ساده، نسخه ی نمایشی قابلیت به اشتراک گذاری تصاویر با ChatGPT را اضافه می کند. این امر از طریق معماری سیستمی که از یک “مدیر سریع” برای به اشتراک گذاشتن اطلاعات بین مدلهای پایه بصری مختلف، مانند مدلهای انتشار پایدار، کنترل شبکه، BLIP و مدلهای تشخیص تصویر، تسهیل میشود.
مدلهای بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعهای از الگوریتمهای بنیادی مورد استفاده برای بینایی رایانه استفاده میشود. این الگوریتمها میتوانند اساس مدلهای پیچیدهتر را تشکیل دهند و برای ارائه قابلیتهای بینایی کامپیوتری استاندارد شده به برنامههای هوش مصنوعی استفاده میشوند.
مدیر سریع بین ChatGPT و این VFM ها برای پردازش یکپارچه خروجی رابط کاربری دارد. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. در حالی که ChatGPT مانند پیشخدمتی است که سفارشات مشتریان را می گیرد، VFM ها مانند سرآشپزهایی هستند که در آشپزخانه مشغول پختن ظرف هستند. مدیر سریع نقش یک مدیر آشپزخانه را بر عهده می گیرد و سفارشات و غذا را بین پیشخدمت ها و سرآشپزها منتقل می کند.
برنامه موبایل ما را دانلود کنید
فلوچارت نحوه عملکرد مدیر سریع در معماری. (منبع: Microsoft Research)
به این ترتیب، مدیر سریع شامل برخی منطق است، مانند قالب استدلالی که به ChatGPT کمک می کند تصمیم بگیرد که آیا نیاز به استفاده از ابزاری (مانند VFM) برای ارائه خروجی لازم دارد یا خیر. PM همچنین از استدلال تکراری استفاده شده برای تنظیم دقیق تصویر خروجی مراقبت می کند. همچنین مراقبت های خاصی را انجام می دهد، مانند مدیریت نام فایل ها در خروجی ChatGPT و ردیابی نام فایل های تصویری.
مدیر سریع واقعاً در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده می کند. به نوعی، مدیر اعلان به جای کاربر می ایستد و ChatGPT را به سمت خروجی مورد نیاز از طریق یک سری درخواست های متناسب حرکت می دهد. این منجر به یک نسخه بسیار توانمندتر از ChatGPT می شود که بر توهمات متکی نیست، در عوض مجبور می شود از طریق مدیر سریع از قابلیت های VFM استفاده کند.
در حالی که Visual ChatGPT به خودی خود قادر است، سابقه ای ایجاد می کند که جذاب تر است. آیا میتوان تواناییهای حیرتانگیز LLM و مدلهای بصری را گرد هم آورد و آیا این میتواند یکی از اولین قدمها به سوی AGI باشد؟
تغییر چهره متن به تصویر
یک مشکل اساسی در نحوه عملکرد مدل های متن به تصویر وجود دارد و آن عدم درک آن ها در زمینه بافت زبانی است. در مقالهای که درک رابطهای از مدلهای هوش مصنوعی مولد را بررسی میکند، دریافتند که این مدلها روابط فیزیکی اشیاء خاص را «درک» ندارند.
برای مثال، در حالی که این مدل قادر به ایجاد تصاویری برای “یک کودک در حال لمس یک کاسه” بود، قادر به ایجاد تصویری از “یک میمون در حال لمس یک ایگوانا” نبود. این به این دلیل است که اطلاعات کافی در داده های آموزشی سناریوی دوم وجود ندارد و در نتیجه منجر به پاسخ های ناکافی می شود. برای غلبه بر این محدودیت مدلهای متن به تصویر، شغل جدیدی پدید آمده است – زمزمههای هوش مصنوعی یا مهندسی سریع.
روند “درک” مدلهای هوش مصنوعی هنوز یک قلمرو ناشناخته است که به آرامی توسط هنرمندان جدید هوش مصنوعی ترسیم میشود. به همین دلیل است که ما وبسایتهایی مانند «PromptHero» داریم، مخزنی از اعلانها برای الگوریتمهای متن به تصویر که فقط کار میکنند، و همچنین به همین دلیل است که سوپ کلمهای به ظاهر بیمعنی میتواند تصاویر هوش مصنوعی خیرهکنندهای ارائه دهد. مثال زیر را در نظر بگیرید.
همانطور که در این تصویر مشاهده می شود، دریافت یک خروجی جامد از یک مدل متن به تصویر نیاز به یک پایگاه دانش جامع در مورد اینکه چه چیزی باید درخواست شود، دارد. از دستورات منفی نیز برای جلوگیری از مشخصه های خاص در تصویر تکمیل شده استفاده می شود. با نگاهی به مسیری که مدیر سریع مایکروسافت در پیش گرفته است، به نظر می رسد که پتانسیل این کار حتی قبل از شروع به پایان رسیده است.
از مثالهای ارائهشده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل نیازی به چنین دستورات پیچیدهای ندارند. آنها به سادگی می توانند آنچه را که از مدل می خواهند به زبان طبیعی تایپ کنند. به عنوان مثال، پس از تولید تصویر یک گربه، کاربر سپس از ChatGPT می خواهد که گربه را با یک سگ جایگزین کند. بدون هیچ دستور پیچیده، تصویر ایجاد شد و کاربر به طور مکرر تغییراتی مانند تغییر رنگ در آن ایجاد کرد.
ابزارهایی مانند Visual ChatGPT نه تنها می توانند مانع ورود مدل های متن به تصویر را کاهش دهند، بلکه می توانند برای افزودن قابلیت همکاری به ابزارهای مختلف هوش مصنوعی نیز استفاده شوند. مدلهای LLM و T2I قبلاً در سیلوها وجود داشتند، اما از طریق فناوریهایی مانند مدیر سریع، ممکن است بتوانیم قابلیتهای این مدلهای پیشرفته را تقویت کنیم.