Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

Visual ChatGPT چیست و چه کاربردی دارد؟

مارس 12, 2023
در Chatbots, OpenAI
0 0
0
Visual ChatGPT چیست و چه کاربردی دارد؟
0
SHARES
3
VIEWS
Share on FacebookShare on Twitter

ChatGPT ویژوال مایکروسافت ریسرچ از مدل‌های بنیادی ویژوال مختلف استفاده می‌کند تا به کاربران اجازه دهد با ChatGPT تعامل داشته باشند. این اتصال به کاربران امکان می دهد از طریق چت پیام ارسال کنند و در حین چت تصاویر را دریافت کنند. همچنین به آنها اجازه می دهد تا با اضافه کردن یک سری از اعلان های مدل بصری، تصاویر را ویرایش کنند.

مایکروسافت به تازگی مدل جدیدی به نام Visual ChatGPT معرفی کرده است که مدل‌های پایه بصری (VFM) مانند Transformers، ControlNet و Stable Diffusion را با ChatGPT ترکیب می‌کند. علاوه بر این، این سیستم تعامل ChatGPT را فراتر از زبان فعال می کند.

چگونه کار می کند؟

ChatGPT توجه بین رشته ای را به خود جلب می کند زیرا یک رابط زبانی با صلاحیت گفتگوی فوق العاده و توانایی های استدلال در زمینه های مختلف ارائه می دهد. با این حال، ChatGPT در حال حاضر به دلیل آموزش زبانی خود قادر به پردازش یا تولید تصاویر از محیط بصری نیست. از سوی دیگر، مدل‌های فونداسیون بصری، مانند Visual Transformers یا Stable Diffusion، فقط در کارهای تخصصی با ورودی‌ها و خروجی‌های ثابت یک دور ماهر هستند. با این حال، درک بصری عالی و توانایی های تولید را نشان دهید.

برای این منظور، محققان مایکروسافت سیستمی به نام Visual ChatGPT توسعه داده‌اند که بسیاری از مدل‌های پایه بصری را در خود جای داده و کاربران را قادر می‌سازد تا با استفاده از رابط‌های گرافیکی کاربر با ChatGPT تعامل داشته باشند. قادر است:

1) انتقال و دریافت نه تنها متن بلکه تصاویر

2) ارائه پرس و جوهای بصری پیچیده یا دستورالعمل های ویرایش بصری که نیاز به همکاری مدل های هوش مصنوعی متعدد با چند فاز دارد.

3) ارائه ورودی و درخواست اصلاحات

با در نظر گرفتن مدل‌هایی با ورودی/خروجی‌های زیاد و مدل‌هایی که نیاز به بازخورد بصری دارند، محققان مجموعه‌ای از دستورات را برای تزریق اطلاعات مدل بصری به ChatGPT ایجاد کرده‌اند. آزمایش‌ها نشان می‌دهند که Visual ChatGPT امکان بررسی نقش‌های بصری ChatGPT را با استفاده از مدل‌های پایه بصری فراهم می‌کند.

چه چیزی تغییر کرد؟

در سال‌های اخیر پیشرفت چشمگیری در توسعه مدل‌های زبان بزرگ (LLM) مانند T5، BLOOM و GPT-3 صورت گرفته است. بر اساس InstructGPT، ChatGPT برای حفظ زمینه مکالمه، پاسخ مناسب به سوالات بعدی و ایجاد پاسخ های دقیق آموزش دیده است. با این حال، اگرچه ChatGPT چشمگیر است، اما فقط با یک زبان واحد آموزش داده شده است و ظرفیت آن برای پردازش داده های بصری را محدود می کند.

VFM ها به دلیل توانایی خود در تفسیر و ایجاد تصاویر پیچیده، پتانسیل فوق العاده ای را در بینایی کامپیوتر نشان داده اند. با این حال، در تعاملات انسان و ماشین، VFM ها نسبت به مدل های زبان محاوره ای به دلیل محدودیت های تحمیل شده توسط ماهیت مشخصات کار و فرمت های ورودی-خروجی مشخص، تطبیق پذیری کمتری دارند.

آموزش یک مدل مکالمه چندوجهی روشی منطقی برای ساختن یک سیستم قابل مقایسه با ChatGPT با ظرفیت درک و تولید اطلاعات بصری است. با این حال، ایجاد چنین سیستمی به مقادیر زیادی داده و قدرت محاسباتی نیاز دارد.

راه حل ممکن؟

یک مطالعه جدید مایکروسافت نشان می دهد که Visual ChatGPT، که با مدل های بینایی از طریق متن و زنجیره سریع کار می کند، می تواند برای حل این مشکل استفاده شود. به جای آموزش کامل ChatGPT چند وجهی از ابتدا، محققان Visual ChatGPT را در بالای ChatGPT ساختند و چندین VFM اضافه کردند. آنها یک Prompt Manager ساخته اند که ChatGPT و این VFM ها را به هم متصل می کند. دارای ویژگی های زیر است:

– فرمت های ورودی و خروجی را تنظیم می کند و به ChatGPT اجازه می دهد بداند هر VFM چه کاری می تواند انجام دهد.

– تاریخچه ها، اولویت ها و تضادهای بین چندین مدل بنیاد بصری را مدیریت می کند.

– انواع مختلف اطلاعات بصری، مانند تصاویر PNG، تصاویر عمقی، و ماتریس های ماسک را به قالب زبان تغییر می دهد تا به ChatGPT کمک کند تا درک کند.

با ادغام Prompt Manager، ChatGPT می‌تواند به طور مکرر از این VFMها استفاده کند و از نحوه پاسخگویی آنها یاد بگیرد تا زمانی که نیازهای کاربران را برآورده کند یا به حالت پایانی برسد.

چه کار میکند؟

به عنوان مثال، فرض کنید یک کاربر تصویر یک فیل سیاه را با دستورالعملی غیرقابل درک مانند “لطفا یک فیل سفید آفریقایی در تصویر بسازید و سپس آن را گام به گام مانند یک کارتون بسازید.”

با کمک Prompt Manager، Visual ChatGPT اجرای مدل های بنیادی بصری مرتبط را آغاز می کند. به طور خاص، از یک مدل تخمین عمق برای کشف اطلاعات عمق، یک مدل عمق به تصویر برای تبدیل اطلاعات عمق به تصویر یک فیل سفید و یک VFM انتقال سبک بر اساس یک مدل انتشار پایدار برای ایجاد تصویر شبیه کارتون است

در زنجیره پردازشی که در بالا نشان داده شده است، Prompt Manager به عنوان یک توزیع کننده برای ChatGPT با ارائه نمایش های بصری و پیگیری نحوه تغییر اطلاعات عمل می کند. به عنوان مثال، پس از اینکه Visual ChatGPT نکات “کارتون” را از Prompt Manager دریافت کرد، خط لوله را متوقف می کند و نتیجه نهایی را نشان می دهد.

چالش ها

محققان در کار خود خاطرنشان کردند که شکست VFM ها و بی نظمی Prompt زمینه های نگرانی است زیرا نتایج تولید کمتر از رضایت بخش را به همراه دارد. با توجه به این، یک ماژول خود تصحیح کننده مورد نیاز است تا اطمینان حاصل شود که خروجی های اجرا با نیات انسان سازگار است و اصلاحات لازم را انجام می دهد. علاوه بر این، ممکن است که زمان استنتاج مدل به دلیل تمایل به تصحیح دوره ثابت افزایش یابد. این تیم در نظر دارد این موضوع را در یک مطالعه آینده بررسی کند.

اساساً، یک تصویر منفرد حاوی اطلاعات زیادی است – واضح‌تر از همه، فرم، رنگ، شکل – و سیستم باید هم نیاز کاربر و هم نحوه ارائه تصویر را به درستی درک کند. در حالی که مدل‌های پایه بصری راه طولانی را طی کرده‌اند، هنوز روزهای اولیه است که از هوش مصنوعی مولد بخواهیم با یک فرمان صوتی ساده تصاویر را ایجاد و سفارشی‌سازی کند. با این حال، VisualGPT می تواند یک مورد آزمایشی هیجان انگیز برای آن باشد.

برای بررسی مخزن GitHub اینجا را کلیک کنید.

نیوش جیواناندام یک نویسنده پژوهشی ارشد در INDIAai (دولت هند) – پورتال ملی هوش مصنوعی هند | NASSCOM. نظرات بیان شده شخصی است.


برچسب ها: chat gptChatGPT
نوشته قبلی

بیایید چت کنیم (GPT) – حق چاپ – کانادا

نوشته‌ی بعدی

چرا ChatGPT، AI مسئولیت تماس سرد را بر عهده می گیرند: رهبر Salesforce

نوشته‌ی بعدی
چرا ChatGPT، AI مسئولیت تماس سرد را بر عهده می گیرند: رهبر Salesforce

چرا ChatGPT، AI مسئولیت تماس سرد را بر عهده می گیرند: رهبر Salesforce

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

کشاورزان حشرات برای کمک به کاهش هزینه ها به هوش مصنوعی می روند

آگوست 17, 2025
چگونه صنعت بازی های رایانه ای در آغوش AI است

چگونه صنعت بازی های رایانه ای در آغوش AI است

آگوست 16, 2025
کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

کار انسان در حلقه ها عینک های هوشمند AI Alibaba را هدایت می کند

آگوست 16, 2025
Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

Deepseek: استارتاپ چینی به چالش کشیدن دره سیلیکون

آگوست 16, 2025
Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

Nvidia قصد دارد مسائل AI را با بسیاری از زبانها حل کند

آگوست 15, 2025
آیا هوش مصنوعی در برنامه های تلویزیونی هیت آینده رویای خود را خواهد دید؟

آیا هوش مصنوعی در برنامه های تلویزیونی هیت آینده رویای خود را خواهد دید؟

آگوست 15, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار