Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

Visual ChatGPT یک فراخوان بیداری برای تبدیل متن به تصویر است

مارس 13, 2023
در Chatbots, OpenAI
0 0
0
Visual ChatGPT یک فراخوان بیداری برای تبدیل متن به تصویر است
0
SHARES
20
VIEWS
Share on FacebookShare on Twitter

محققان مایکروسافت اخیرا مقاله ای را با هدف گردآوری قابلیت های ChatGPT و مدل های پایه تصویری مانند Stable Diffusion منتشر کرده اند. این معماری که “چت بصری GPT” نامیده می شود، می خواهد شکاف بین متن به تصویر و تولید زبان طبیعی را پر کند.

همانطور که توسط هدف، به نظر می رسد این راهی برای الگوریتم های متن به تصویر باشد. این رویکرد نقاط قوت یک LLM مانند ChatGPT را با قدرت تولید تصویر ترکیب می‌کند و یک بسته جامع ارائه می‌دهد که کاستی‌های هر دو این پلتفرم‌ها را پوشش می‌دهد. با آوردن پردازش زبان طبیعی به مدل‌های تولید تصویر مبتنی بر پارامتر، می‌توان با هوش مصنوعی تعامل بیشتری داشت. ارگانیک. آلی مسیر.

ChatGPT بصری چگونه کار می کند؟

به زبان ساده، نسخه ی نمایشی قابلیت به اشتراک گذاری تصاویر با ChatGPT را اضافه می کند. این امر از طریق معماری سیستمی که از یک “مدیر سریع” برای به اشتراک گذاشتن اطلاعات بین مدل‌های پایه بصری مختلف، مانند مدل‌های انتشار پایدار، کنترل شبکه، BLIP و مدل‌های تشخیص تصویر، تسهیل می‌شود.

مدل‌های بنیاد بصری یا VFM، اصطلاحی است که برای توصیف مجموعه‌ای از الگوریتم‌های بنیادی مورد استفاده برای بینایی رایانه استفاده می‌شود. این الگوریتم‌ها می‌توانند اساس مدل‌های پیچیده‌تر را تشکیل دهند و برای ارائه قابلیت‌های بینایی کامپیوتری استاندارد شده به برنامه‌های هوش مصنوعی استفاده می‌شوند.

مدیر سریع بین ChatGPT و این VFM ها برای پردازش یکپارچه خروجی رابط کاربری دارد. به عنوان مثال، آشپزخانه یک رستوران را در نظر بگیرید. در حالی که ChatGPT مانند پیشخدمتی است که سفارشات مشتریان را می گیرد، VFM ها مانند سرآشپزهایی هستند که در آشپزخانه مشغول پختن ظرف هستند. مدیر سریع نقش یک مدیر آشپزخانه را بر عهده می گیرد و سفارشات و غذا را بین پیشخدمت ها و سرآشپزها منتقل می کند.


برنامه موبایل ما را دانلود کنید


فلوچارت نحوه عملکرد مدیر سریع در معماری. (منبع: Microsoft Research)

به این ترتیب، مدیر سریع شامل برخی منطق است، مانند قالب استدلالی که به ChatGPT کمک می کند تصمیم بگیرد که آیا نیاز به استفاده از ابزاری (مانند VFM) برای ارائه خروجی لازم دارد یا خیر. PM همچنین از استدلال تکراری استفاده شده برای تنظیم دقیق تصویر خروجی مراقبت می کند. همچنین مراقبت های خاصی را انجام می دهد، مانند مدیریت نام فایل ها در خروجی ChatGPT و ردیابی نام فایل های تصویری.

مدیر سریع واقعاً در قلب این سیستم قرار دارد، زیرا ChatGPT برای پاسخ دادن به هر نوع سؤال غیرزبانی از آن استفاده می کند. به نوعی، مدیر اعلان به جای کاربر می ایستد و ChatGPT را به سمت خروجی مورد نیاز از طریق یک سری درخواست های متناسب حرکت می دهد. این منجر به یک نسخه بسیار توانمندتر از ChatGPT می شود که بر توهمات متکی نیست، در عوض مجبور می شود از طریق مدیر سریع از قابلیت های VFM استفاده کند.

در حالی که Visual ChatGPT به خودی خود قادر است، سابقه ای ایجاد می کند که جذاب تر است. آیا می‌توان توانایی‌های حیرت‌انگیز LLM و مدل‌های بصری را گرد هم آورد و آیا این می‌تواند یکی از اولین قدم‌ها به سوی AGI باشد؟

تغییر چهره متن به تصویر

یک مشکل اساسی در نحوه عملکرد مدل های متن به تصویر وجود دارد و آن عدم درک آن ها در زمینه بافت زبانی است. در مقاله‌ای که درک رابطه‌ای از مدل‌های هوش مصنوعی مولد را بررسی می‌کند، دریافتند که این مدل‌ها روابط فیزیکی اشیاء خاص را «درک» ندارند.

برای مثال، در حالی که این مدل قادر به ایجاد تصاویری برای “یک کودک در حال لمس یک کاسه” بود، قادر به ایجاد تصویری از “یک میمون در حال لمس یک ایگوانا” نبود. این به این دلیل است که اطلاعات کافی در داده های آموزشی سناریوی دوم وجود ندارد و در نتیجه منجر به پاسخ های ناکافی می شود. برای غلبه بر این محدودیت مدل‌های متن به تصویر، شغل جدیدی پدید آمده است – زمزمه‌های هوش مصنوعی یا مهندسی سریع.

روند “درک” مدل‌های هوش مصنوعی هنوز یک قلمرو ناشناخته است که به آرامی توسط هنرمندان جدید هوش مصنوعی ترسیم می‌شود. به همین دلیل است که ما وب‌سایت‌هایی مانند «PromptHero» داریم، مخزنی از اعلان‌ها برای الگوریتم‌های متن به تصویر که فقط کار می‌کنند، و همچنین به همین دلیل است که سوپ کلمه‌ای به ظاهر بی‌معنی می‌تواند تصاویر هوش مصنوعی خیره‌کننده‌ای ارائه دهد. مثال زیر را در نظر بگیرید.

هنر هوش مصنوعی خوب به دستورات بسیار خاصی نیاز دارد. (منبع: PromptHero)

همانطور که در این تصویر مشاهده می شود، دریافت یک خروجی جامد از یک مدل متن به تصویر نیاز به یک پایگاه دانش جامع در مورد اینکه چه چیزی باید درخواست شود، دارد. از دستورات منفی نیز برای جلوگیری از مشخصه های خاص در تصویر تکمیل شده استفاده می شود. با نگاهی به مسیری که مدیر سریع مایکروسافت در پیش گرفته است، به نظر می رسد که پتانسیل این کار حتی قبل از شروع به پایان رسیده است.

از مثال‌های ارائه‌شده در صفحه GitHub، مشخص است که کاربران برای انتقال اطلاعات به مدل نیازی به چنین دستورات پیچیده‌ای ندارند. آنها به سادگی می توانند آنچه را که از مدل می خواهند به زبان طبیعی تایپ کنند. به عنوان مثال، پس از تولید تصویر یک گربه، کاربر سپس از ChatGPT می خواهد که گربه را با یک سگ جایگزین کند. بدون هیچ دستور پیچیده، تصویر ایجاد شد و کاربر به طور مکرر تغییراتی مانند تغییر رنگ در آن ایجاد کرد.

ابزارهایی مانند Visual ChatGPT نه تنها می توانند مانع ورود مدل های متن به تصویر را کاهش دهند، بلکه می توانند برای افزودن قابلیت همکاری به ابزارهای مختلف هوش مصنوعی نیز استفاده شوند. مدل‌های LLM و T2I قبلاً در سیلوها وجود داشتند، اما از طریق فناوری‌هایی مانند مدیر سریع، ممکن است بتوانیم قابلیت‌های این مدل‌های پیشرفته را تقویت کنیم.

برچسب ها: chat gptChatGPT
نوشته قبلی

آیا ChatGPT برای شما کار نمی کند؟ در اینجا نحوه تلاش برای رفع آن آمده است

نوشته‌ی بعدی

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

نوشته‌ی بعدی
[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

[Review] ما چت هوش مصنوعی مایکروسافت بینگ را امتحان کردیم، در اینجا چیزی است که می تواند انجام دهد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

آیا هوش مصنوعی می تواند به حل کمبود نیروی کار ژاپن کمک کند؟

آیا هوش مصنوعی می تواند به حل کمبود نیروی کار ژاپن کمک کند؟

آگوست 17, 2025
کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

آگوست 17, 2025
چگونه صنعت بازی های رایانه ای در آغوش AI است

چگونه صنعت بازی های رایانه ای در آغوش AI است

آگوست 16, 2025
کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

آگوست 16, 2025
Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

آگوست 16, 2025
Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

آگوست 15, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار