ChatGPT ویژوال مایکروسافت ریسرچ از مدلهای بنیادی ویژوال مختلف استفاده میکند تا به کاربران اجازه دهد با ChatGPT تعامل داشته باشند. این اتصال به کاربران امکان می دهد از طریق چت پیام ارسال کنند و در حین چت تصاویر را دریافت کنند. همچنین به آنها اجازه می دهد تا با اضافه کردن یک سری از اعلان های مدل بصری، تصاویر را ویرایش کنند.
مایکروسافت به تازگی مدل جدیدی به نام Visual ChatGPT معرفی کرده است که مدلهای پایه بصری (VFM) مانند Transformers، ControlNet و Stable Diffusion را با ChatGPT ترکیب میکند. علاوه بر این، این سیستم تعامل ChatGPT را فراتر از زبان فعال می کند.
چگونه کار می کند؟
ChatGPT توجه بین رشته ای را به خود جلب می کند زیرا یک رابط زبانی با صلاحیت گفتگوی فوق العاده و توانایی های استدلال در زمینه های مختلف ارائه می دهد. با این حال، ChatGPT در حال حاضر به دلیل آموزش زبانی خود قادر به پردازش یا تولید تصاویر از محیط بصری نیست. از سوی دیگر، مدلهای فونداسیون بصری، مانند Visual Transformers یا Stable Diffusion، فقط در کارهای تخصصی با ورودیها و خروجیهای ثابت یک دور ماهر هستند. با این حال، درک بصری عالی و توانایی های تولید را نشان دهید.
برای این منظور، محققان مایکروسافت سیستمی به نام Visual ChatGPT توسعه دادهاند که بسیاری از مدلهای پایه بصری را در خود جای داده و کاربران را قادر میسازد تا با استفاده از رابطهای گرافیکی کاربر با ChatGPT تعامل داشته باشند. قادر است:
1) انتقال و دریافت نه تنها متن بلکه تصاویر
2) ارائه پرس و جوهای بصری پیچیده یا دستورالعمل های ویرایش بصری که نیاز به همکاری مدل های هوش مصنوعی متعدد با چند فاز دارد.
3) ارائه ورودی و درخواست اصلاحات
با در نظر گرفتن مدلهایی با ورودی/خروجیهای زیاد و مدلهایی که نیاز به بازخورد بصری دارند، محققان مجموعهای از دستورات را برای تزریق اطلاعات مدل بصری به ChatGPT ایجاد کردهاند. آزمایشها نشان میدهند که Visual ChatGPT امکان بررسی نقشهای بصری ChatGPT را با استفاده از مدلهای پایه بصری فراهم میکند.
چه چیزی تغییر کرد؟
در سالهای اخیر پیشرفت چشمگیری در توسعه مدلهای زبان بزرگ (LLM) مانند T5، BLOOM و GPT-3 صورت گرفته است. بر اساس InstructGPT، ChatGPT برای حفظ زمینه مکالمه، پاسخ مناسب به سوالات بعدی و ایجاد پاسخ های دقیق آموزش دیده است. با این حال، اگرچه ChatGPT چشمگیر است، اما فقط با یک زبان واحد آموزش داده شده است و ظرفیت آن برای پردازش داده های بصری را محدود می کند.
VFM ها به دلیل توانایی خود در تفسیر و ایجاد تصاویر پیچیده، پتانسیل فوق العاده ای را در بینایی کامپیوتر نشان داده اند. با این حال، در تعاملات انسان و ماشین، VFM ها نسبت به مدل های زبان محاوره ای به دلیل محدودیت های تحمیل شده توسط ماهیت مشخصات کار و فرمت های ورودی-خروجی مشخص، تطبیق پذیری کمتری دارند.
آموزش یک مدل مکالمه چندوجهی روشی منطقی برای ساختن یک سیستم قابل مقایسه با ChatGPT با ظرفیت درک و تولید اطلاعات بصری است. با این حال، ایجاد چنین سیستمی به مقادیر زیادی داده و قدرت محاسباتی نیاز دارد.
راه حل ممکن؟
یک مطالعه جدید مایکروسافت نشان می دهد که Visual ChatGPT، که با مدل های بینایی از طریق متن و زنجیره سریع کار می کند، می تواند برای حل این مشکل استفاده شود. به جای آموزش کامل ChatGPT چند وجهی از ابتدا، محققان Visual ChatGPT را در بالای ChatGPT ساختند و چندین VFM اضافه کردند. آنها یک Prompt Manager ساخته اند که ChatGPT و این VFM ها را به هم متصل می کند. دارای ویژگی های زیر است:
– فرمت های ورودی و خروجی را تنظیم می کند و به ChatGPT اجازه می دهد بداند هر VFM چه کاری می تواند انجام دهد.
– تاریخچه ها، اولویت ها و تضادهای بین چندین مدل بنیاد بصری را مدیریت می کند.
– انواع مختلف اطلاعات بصری، مانند تصاویر PNG، تصاویر عمقی، و ماتریس های ماسک را به قالب زبان تغییر می دهد تا به ChatGPT کمک کند تا درک کند.
با ادغام Prompt Manager، ChatGPT میتواند به طور مکرر از این VFMها استفاده کند و از نحوه پاسخگویی آنها یاد بگیرد تا زمانی که نیازهای کاربران را برآورده کند یا به حالت پایانی برسد.
چه کار میکند؟
به عنوان مثال، فرض کنید یک کاربر تصویر یک فیل سیاه را با دستورالعملی غیرقابل درک مانند “لطفا یک فیل سفید آفریقایی در تصویر بسازید و سپس آن را گام به گام مانند یک کارتون بسازید.”
با کمک Prompt Manager، Visual ChatGPT اجرای مدل های بنیادی بصری مرتبط را آغاز می کند. به طور خاص، از یک مدل تخمین عمق برای کشف اطلاعات عمق، یک مدل عمق به تصویر برای تبدیل اطلاعات عمق به تصویر یک فیل سفید و یک VFM انتقال سبک بر اساس یک مدل انتشار پایدار برای ایجاد تصویر شبیه کارتون است
در زنجیره پردازشی که در بالا نشان داده شده است، Prompt Manager به عنوان یک توزیع کننده برای ChatGPT با ارائه نمایش های بصری و پیگیری نحوه تغییر اطلاعات عمل می کند. به عنوان مثال، پس از اینکه Visual ChatGPT نکات “کارتون” را از Prompt Manager دریافت کرد، خط لوله را متوقف می کند و نتیجه نهایی را نشان می دهد.
چالش ها
محققان در کار خود خاطرنشان کردند که شکست VFM ها و بی نظمی Prompt زمینه های نگرانی است زیرا نتایج تولید کمتر از رضایت بخش را به همراه دارد. با توجه به این، یک ماژول خود تصحیح کننده مورد نیاز است تا اطمینان حاصل شود که خروجی های اجرا با نیات انسان سازگار است و اصلاحات لازم را انجام می دهد. علاوه بر این، ممکن است که زمان استنتاج مدل به دلیل تمایل به تصحیح دوره ثابت افزایش یابد. این تیم در نظر دارد این موضوع را در یک مطالعه آینده بررسی کند.
اساساً، یک تصویر منفرد حاوی اطلاعات زیادی است – واضحتر از همه، فرم، رنگ، شکل – و سیستم باید هم نیاز کاربر و هم نحوه ارائه تصویر را به درستی درک کند. در حالی که مدلهای پایه بصری راه طولانی را طی کردهاند، هنوز روزهای اولیه است که از هوش مصنوعی مولد بخواهیم با یک فرمان صوتی ساده تصاویر را ایجاد و سفارشیسازی کند. با این حال، VisualGPT می تواند یک مورد آزمایشی هیجان انگیز برای آن باشد.
برای بررسی مخزن GitHub اینجا را کلیک کنید.