دهلی نو، 13 مارس: مایکروسافت به دنبال پاسخ خیره کننده به ChatGPT و ادغام آن در موتور جستجوی مایکروسافت Bing، پیش قدم شد و Visual ChatGPT را منتشر کرد.
ما قبلاً می دانیم که ChatGPT یک ربات چت مبتنی بر هوش مصنوعی (AI) است که مبتنی بر ماژول زبان بزرگ است که محبوبیت سرسام آوری را به دست آورده است. اما همتای ویژوال آن همه چیز را به سطحی بالاتر برده است که همه چیز را جالبتر میکند. بیایید به عملکرد آن و تفاوت آن با نسخه معمولی نگاهی بیندازیم. تاریخ انتشار ChatGPT 4: از ویدیوهای تولید شده توسط هوش مصنوعی تا پاسخ سریعتر، نسخه جدید Chatbot با هوش مصنوعی را باز کنید با ویژگی پیشرفته در این روز آماده است.
Visual ChatGPT – چیست و چگونه متفاوت است؟
Visual ChatGPT سیستمی است که شامل چندین مدل پایه بصری است که به کاربران امکان می دهد از طریق رابط های گرافیکی کاربر با ChatGPT ارتباط برقرار کنند. در حالی که ChatGPT فقط مبتنی بر ماژول زبان است که توسط هوش مصنوعی طراحی شده است، Visual ChatGPT شامل آثاری بر روی تصاویر است. iQOO Z7i معرفی چیپست Mediatek Dimensity 6020. تمام جزئیات را اینجا بررسی کنید.
Visual ChatGPT انواع مختلفی از مدلهای پایه بصری، از جمله ControlNet، Transformers و Stable Diffusion را به همراه پایه ChatGPT ترکیب میکند که به چت ربات اجازه میدهد تا تصاویر را شناسایی و تفسیر کند. این به ماژول هوش مصنوعی اجازه می دهد تا با موفقیت با کاربران تعامل داشته باشد و تولید تصویر و همچنین ویرایش را ارائه دهد.
محبوبیت گسترده ChatGPT در درجه اول به دلیل توانایی آن در تعامل با کاربر در یک مکالمه شبیه انسان است. امکانات برنامه های گسترده و متنوع آن باعث شده است که کاربران از مرورگرهای اینترنتی عمومی گرفته تا محققان جدی علاقه مند شوند. در شکل فعلی خود، فقط به متون و در متن پاسخ می دهد. این بدان معناست که فقط می تواند متون را پردازش و تولید کند نه تصاویر. این ماژول یادگیری زبانی آن را از پردازش یا تولید هر گونه تصویری محدود می کند.
از سوی دیگر، مدلهای پایه بصری مانند Visual Transformers و Stable Diffusion از نظر پردازش بصری و همچنین تولید عالی هستند. از این رو Visual ChatGPT چیزی نیست جز ادغام این مدل های بصری با ChatGPT. ترکیب مدلهای زبانی و بصری بهترینهای این دو جهان را ارائه میدهد و یک مدل بسیار جدید و بهبود یافته – Visual ChatGPT را ارائه میدهد که میتواند ورودیهای بصری را پردازش و تولید کند.
از این رو، محققان مایکروسافت Visual ChatGPT را توسعه دادهاند که بسیاری از مدلهای پایه بصری را ادغام میکند و به کاربران اجازه میدهد تا با ChatGPT نه تنها با متون، بلکه با تصاویر نیز تعامل داشته باشند.
Visual ChatGPT قادر است و محدود به موارد زیر نیست:
- انتقال و دریافت نه تنها متن بلکه تصاویر.
- به سوالات بصری پیچیده و/یا دستورالعمل های ویرایش بصری پاسخ دهید.
- ارائه ورودی در مورد تصاویر و درخواست اصلاحات.
آموزش یک مدل مکالمه چندوجهی یک روش بسیار پیچیده و منطقی برای ساختن سیستمی است که قابل مقایسه با ChatGPT است که قادر به درک و تولید اطلاعات بصری است. با این حال، ایجاد چنین ماژول پیچیده و چند منظوره پیچیده ای نیاز به یکپارچه سازی مقادیر زیادی از داده ها و توانایی های پردازش دارد.
تا به حال، ChatGPT در طول مدت طولانی مکالمه با مشکلاتی مواجه است و Visual ChatGPT نیز مستعد خطا است. با این حال، انتظار می رود این سیستم در آینده نزدیک بسیار کارآمدتر باشد.
(داستان فوق برای اولین بار در LatestLY در 13 مارس 2023، ساعت 05:45 بعد از ظهر IST ظاهر شد. برای اخبار و به روز رسانی های بیشتر در مورد سیاست، جهان، ورزش، سرگرمی و سبک زندگی، به وب سایت ما lastly.com وارد شوید).
اکنون به اشتراک بگذارید