Visual ChatGPT یک فراخوان بیداری برای تبدیل متن به تصویر است

محققان مایکروسافت اخیرا مقاله ای را با هدف گردآوری قابلیت های ChatGPT و مدل های پایه تصویری مانند Stable Diffusion منتشر کرده اند. این معماری که “چت بصری GPT” نامیده می شود، می خواهد شکاف بین متن به تصویر و تولید زبان طبیعی را پر کند.

همانطور که توسط هدف، به نظر می رسد این راهی برای الگوریتم های متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر ترکیب می‌کند و یک بسته جامع ارائه می‌دهد که کاستی‌های هر دو این پلتفرم‌ها را پوشش می‌دهد. با آوردن پردازش زبان طبیعی به مدل‌های تولید تصویر مبتنی بر پارامتر، می‌توان با هوش مصنوعی تعامل بیشتری داشت. ارگانیک. آلی مسیر.

ChatGPT بصری چگونه کار می کند؟

به زبان ساده، نسخه ی نمایشی قابلیت به اشتراک گذاری تصاویر با ChatGPT را اضافه می کند. این امر از طریق معماری سیستمی که از یک “مدیر سریع” برای به اشتراک گذاشتن اطلاعات بین مدل‌های پایه بصری مختلف، مانند مدل‌های انتشار پایدار، کنترل شبکه، BLIP و مدل‌های تشخیص تصویر، تسهیل می‌شود.

مدل‌های بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعه‌ای از الگوریتم‌های بنیادی مورد استفاده برای بینایی رایانه استفاده می‌شود. این الگوریتم‌ها می‌توانند اساس مدل‌های پیچیده‌تر را تشکیل دهند و برای ارائه قابلیت‌های بینایی کامپیوتری استاندارد شده به برنامه‌های هوش مصنوعی استفاده می‌شوند.

مدیر سریع بین ChatGPT و این VFM ها برای پردازش یکپارچه خروجی رابط کاربری دارد. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. در حالی که ChatGPT مانند پیشخدمتی است که سفارشات مشتریان را می گیرد، VFM ها مانند سرآشپزهایی هستند که در آشپزخانه مشغول پختن ظرف هستند. مدیر سریع نقش یک مدیر آشپزخانه را بر عهده می گیرد و سفارشات و غذا را بین پیشخدمت ها و سرآشپزها منتقل می کند.

برنامه موبایل ما را دانلود کنید

فلوچارت نحوه عملکرد مدیر سریع در معماری. (منبع: Microsoft Research)

به این ترتیب، مدیر سریع شامل برخی منطق است، مانند قالب استدلالی که به ChatGPT کمک می کند تصمیم بگیرد که آیا نیاز به استفاده از ابزاری (مانند VFM) برای ارائه خروجی لازم دارد یا خیر. PM همچنین از استدلال تکراری استفاده شده برای تنظیم دقیق تصویر خروجی مراقبت می کند. همچنین مراقبت های خاصی را انجام می دهد، مانند مدیریت نام فایل ها در خروجی ChatGPT و ردیابی نام فایل های تصویری.

مدیر سریع واقعاً در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده می کند. به نوعی، مدیر اعلان به جای کاربر می ایستد و ChatGPT را به سمت خروجی مورد نیاز از طریق یک سری درخواست های متناسب حرکت می دهد. این منجر به یک نسخه بسیار توانمندتر از ChatGPT می شود که بر توهمات متکی نیست، در عوض مجبور می شود از طریق مدیر سریع از قابلیت های VFM استفاده کند.

در حالی که Visual ChatGPT به خودی خود قادر است، سابقه ای ایجاد می کند که جذاب تر است. آیا می‌توان توانایی‌های حیرت‌انگیز LLM و مدل‌های بصری را گرد هم آورد و آیا این می‌تواند یکی از اولین قدم‌ها به سوی AGI باشد؟

تغییر چهره متن به تصویر

یک مشکل اساسی در نحوه عملکرد مدل های متن به تصویر وجود دارد و آن عدم درک آن ها در زمینه بافت زبانی است. در مقاله‌ای که درک رابطه‌ای از مدل‌های هوش مصنوعی مولد را بررسی می‌کند، دریافتند که این مدل‌ها روابط فیزیکی اشیاء خاص را «درک» ندارند.

برای مثال، در حالی که این مدل قادر به ایجاد تصاویری برای “یک کودک در حال لمس یک کاسه” بود، قادر به ایجاد تصویری از “یک میمون در حال لمس یک ایگوانا” نبود. این به این دلیل است که اطلاعات کافی در داده های آموزشی سناریوی دوم وجود ندارد و در نتیجه منجر به پاسخ های ناکافی می شود. برای غلبه بر این محدودیت مدل‌های متن به تصویر، شغل جدیدی پدید آمده است – زمزمه‌های هوش مصنوعی یا مهندسی سریع.

روند “درک” مدل‌های هوش مصنوعی هنوز یک قلمرو ناشناخته است که به آرامی توسط هنرمندان جدید هوش مصنوعی ترسیم می‌شود. به همین دلیل است که ما وب‌سایت‌هایی مانند «PromptHero» داریم، مخزنی از اعلان‌ها برای الگوریتم‌های متن به تصویر که فقط کار می‌کنند، و همچنین به همین دلیل است که سوپ کلمه‌ای به ظاهر بی‌معنی می‌تواند تصاویر هوش مصنوعی خیره‌کننده‌ای ارائه دهد. مثال زیر را در نظر بگیرید.

هنر هوش مصنوعی خوب به دستورات بسیار خاصی نیاز دارد. (منبع: PromptHero)

همانطور که در این تصویر مشاهده می شود، دریافت یک خروجی جامد از یک مدل متن به تصویر نیاز به یک پایگاه دانش جامع در مورد اینکه چه چیزی باید درخواست شود، دارد. از دستورات منفی نیز برای جلوگیری از مشخصه های خاص در تصویر تکمیل شده استفاده می شود. با نگاهی به مسیری که مدیر سریع مایکروسافت در پیش گرفته است، به نظر می رسد که پتانسیل این کار حتی قبل از شروع به پایان رسیده است.

از مثال‌های ارائه‌شده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل نیازی به چنین دستورات پیچیده‌ای ندارند. آنها به سادگی می توانند آنچه را که از مدل می خواهند به زبان طبیعی تایپ کنند. به عنوان مثال، پس از تولید تصویر یک گربه، کاربر سپس از ChatGPT می خواهد که گربه را با یک سگ جایگزین کند. بدون هیچ دستور پیچیده، تصویر ایجاد شد و کاربر به طور مکرر تغییراتی مانند تغییر رنگ در آن ایجاد کرد.

ابزارهایی مانند Visual ChatGPT نه تنها می توانند مانع ورود مدل های متن به تصویر را کاهش دهند، بلکه می توانند برای افزودن قابلیت همکاری به ابزارهای مختلف هوش مصنوعی نیز استفاده شوند. مدل‌های LLM و T2I قبلاً در سیلوها وجود داشتند، اما از طریق فناوری‌هایی مانند مدیر سریع، ممکن است بتوانیم قابلیت‌های این مدل‌های پیشرفته را تقویت کنیم.

برچسب ها: chat gpt ChatGPT

Visual ChatGPT یک فراخوان بیداری برای تبدیل متن به تصویر است

آیا ChatGPT برای شما کار نمی کند؟ در اینجا نحوه تلاش برای رفع آن آمده است

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

آیا هوش مصنوعی می تواند به حل کمبود نیروی کار ژاپن کمک کند؟

کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

چگونه صنعت بازی های رایانه ای در آغوش AI است

کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

Visual ChatGPT یک فراخوان بیداری برای تبدیل متن به تصویر است

ChatGPT بصری چگونه کار می کند؟

برنامه موبایل ما را دانلود کنید

تغییر چهره متن به تصویر

آیا ChatGPT برای شما کار نمی کند؟ در اینجا نحوه تلاش برای رفع آن آمده است

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

آیا هوش مصنوعی می تواند به حل کمبود نیروی کار ژاپن کمک کند؟

کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

چگونه صنعت بازی های رایانه ای در آغوش AI است

کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید