Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

Visual ChatGPT: مایکروسافت ChatGPT و VFM را ترکیب می کند

مارس 27, 2023
در Chatbots, OpenAI
0 0
0
Visual ChatGPT: مایکروسافت ChatGPT و VFM را ترکیب می کند
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter

Visual ChatGPT: مایکروسافت ChatGPT و VFM را ترکیب می کند
تصویر توسط نویسنده

درست زمانی که فکر کردیم اخبار کافی درباره مدل‌های زبان بزرگ (LLM) را هضم کرده‌ایم، تیم تحقیقات آسیایی Microsoft Visual ChatGPT را برای ما آورد. Visual ChatGPT بر محدودیت‌های کنونی ChatGPT غلبه می‌کند که نمی‌تواند اطلاعات بصری را پردازش کند زیرا با یک روش زبانی واحد آموزش داده می‌شود.

Visual ChatGPT سیستمی است که از مدل های Visual Foundation (VFM) برای کمک به ChatGPT برای درک بهتر، تولید و ویرایش اطلاعات بصری استفاده می کند. VFM توانایی تعیین فرمت های ورودی-خروجی، تبدیل اطلاعات بصری به فرمت زبان و مدیریت تاریخچه ها، اولویت ها و تضادهای VFM را دارد.

بنابراین، Visual ChatGPT یک مدل هوش مصنوعی است که به عنوان پلی بین محدودیت‌های ChatGPT عمل می‌کند و به کاربران اجازه می‌دهد از طریق چت ارتباط برقرار کنند و تصاویر بصری تولید کنند.

محدودیت های ChatGPT

ChatGPT در اکثر مکالمات مردم در چند هفته و چند ماه گذشته بوده است. اما به دلیل قابلیت های آموزشی زبانی، امکان پردازش و تولید تصاویر را نمی دهد.

در حالی که شما مدل های پایه بصری مانند Visual Transformers و Steady Diffusion دارید که قابلیت های بصری شگفت انگیزی دارند. اینجاست که ترکیبی از زبان و مدل های تصویر، Visual ChatGPT را ایجاد کرده است.

مدل های Visual Foundation چیست؟

Visual Foundation Models برای گروه بندی الگوریتم های اساسی که در بینایی کامپیوتر استفاده می شوند استفاده می شود. آن‌ها مهارت‌های بینایی کامپیوتری استاندارد را می‌گیرند و آن‌ها را به برنامه‌های هوش مصنوعی منتقل می‌کنند تا با کارهای پیچیده‌تر مقابله کنند.

Prompt Manager در Visual ChatGPT از 22 VFM تشکیل شده است که شامل Text-to-Image، ControlNet، Edge-To-Image و غیره است. این به ChatGPT کمک می کند تا تمام سیگنال های بصری یک تصویر را به زبان ChatGPT تبدیل کند تا بهتر درک شود. بنابراین Visual ChatGPT چگونه کار می کند؟

Visual ChatGPT از اجزای مختلفی تشکیل شده است تا به مدل زبان بزرگ ChatGPT کمک کند تا تصاویر بصری را درک کند.

اجزای معماری Visual ChatGPT

  • پرس و جو کاربر: اینجا جایی است که کاربر درخواست خود را ارسال می کند
  • مدیر سریع: این پرس و جوهای بصری کاربران را به فرمت زبان تبدیل می کند تا مدل ChatGPT قابل درک باشد.
  • مدل های بنیاد بصری: این ترکیبی از انواع VFM ها، مانند BLIP (Bootstrapping Language-Image Pre-training)، Stable Diffusion، ControlNet، Pix2Pix و غیره است.
  • اصل سیستم: این قوانین اساسی و الزامات Visual ChatGPT را فراهم می کند.
  • تاریخچه دیالوگ: این اولین نقطه تعامل و مکالمه ای است که سیستم با کاربر دارد.
  • تاریخچه استدلال: این از استدلال قبلی استفاده می کند که VFM های مختلف در گذشته برای حل پرس و جوهای پیچیده داشته اند.
  • پاسخ متوسط: با استفاده از VFM ها، مدل سعی می کند چندین پاسخ میانی را که دارای درک منطقی هستند، خروجی دهد.

مایکروسافت گیت هاب
تصویر توسط Microsoft GitHub

اطلاعات بیشتر درباره Prompt Manager

ممکن است برخی از شما فکر کنید که این یک راه‌حل اجباری برای ChatGPT برای مقابله با تصاویر بصری است، زیرا هنوز همه سیگنال‌های بصری یک تصویر را به زبان تبدیل می‌کند. هنگام آپلود تصاویر، Prompt Manager یک تاریخچه چت داخلی را ترکیب می کند که شامل اطلاعاتی مانند نام فایل است تا ChatGPT بهتر بفهمد که پرس و جو به چه چیزی اشاره دارد.

به عنوان مثال، نام یک تصویر وارد شده توسط کاربر به عنوان یک تاریخچه عملیات عمل می کند و سپس مدیر سریع به مدل کمک می کند تا از طریق “Reasoning Format” عبور کند تا بفهمد چه کاری باید با تصویر انجام شود. قبل از اینکه ChatGPT عملکرد صحیح VFM را انتخاب کند، می توانید این را به عنوان افکار درونی مدل در نظر بگیرید.

در تصویر زیر می بینید که چگونه Prompt Manager قوانین Visual ChatGPT را آغاز می کند:

Visual ChatGPT: صحبت کردن، طراحی و ویرایش با مدل های Visual Foundation
تصویر توسط Visual ChatGPT: صحبت کردن، طراحی و ویرایش با مدل های Visual Foundation

برای شروع سفر Visual ChatGPT خود، ابتدا باید نسخه نمایشی Visual ChatGPT را اجرا کنید:

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

همچنین می‌توانید درباره گیت‌هاب Visual ChatGPT مایکروسافت اطلاعات بیشتری کسب کنید. اطمینان حاصل کنید که به استفاده از حافظه GPU آنها در هر یک از مدل های Visual Foundation نگاه می کنید.

بنابراین Visual ChatGPT چه کاری می تواند انجام دهد؟

تولید تصویر

می‌توانید از Visual ChatGPT بخواهید که با ارائه توضیحات، یک تصویر از ابتدا ایجاد کند. بسته به قدرت محاسباتی موجود، تصویر شما در عرض چند ثانیه تولید خواهد شد. تولید تصویر مصنوعی آن با استفاده از داده های متنی مبتنی بر انتشار پایدار است.

تغییر پس زمینه تصویر

باز هم، با استفاده از انتشار پایدار، Visual ChatGPT می تواند پس زمینه تصویر ورودی شما را تغییر دهد. کاربر می‌تواند هر توضیحی در مورد آنچه که می‌خواهد پس‌زمینه به چه چیزی تغییر کند، به دستیار ارائه دهد و مدل انتشار پایدار پس‌زمینه تصویر را نقاشی می‌کند.

تغییر تصویر رنگی و جلوه های دیگر

همچنین می‌توانید رنگ تصویر خود را تغییر دهید و بر اساس ارائه توضیحات برنامه، افکت‌ها را اعمال کنید. Visual ChatGPT از انواع مدل های از پیش آموزش دیده و OpenCV برای تغییر رنگ تصویر، برجسته کردن لبه های یک تصویر و موارد دیگر استفاده می کند.

ایجاد تغییرات در یک تصویر

Visual ChatGPT به شما این امکان را می دهد که با ویرایش و اصلاح اشیاء در تصویر با توضیحات متنی هدایت شده به برنامه، جنبه هایی از تصویر خود را حذف یا جایگزین کنید. با این حال، خوب است توجه داشته باشید که این ویژگی به قدرت محاسباتی بیشتری نیاز دارد.

همانطور که می دانیم، همیشه نوعی نقص وجود دارد که سازمان ها باید برای بهبود خدمات خود روی آنها کار کنند.

ترکیبی از بینایی کامپیوتری و مدل های زبان بزرگ

Visual ChatGPT به شدت به ChatGPT و VFM ها وابسته است، بنابراین، دقت و قابلیت اطمینان این جنبه های فردی بر عملکرد Visual ChatGPT تأثیر می گذارد. ترکیبی از استفاده از یک مدل زبان بزرگ و چشم انداز کامپیوتری به مقدار زیادی مهندسی سریع نیاز دارد و دستیابی به عملکرد ماهر می تواند دشوار باشد.

حریم خصوصی و امنیت

Visual ChatGPT این قابلیت را دارد که VFM ها را به راحتی وصل و جدا کند، که ممکن است برای برخی از کاربران در مورد نگرانی های امنیتی و حفظ حریم خصوصی نگران کننده باشد. مایکروسافت باید بیشتر بررسی کند که چگونه داده های حساس به خطر نمی افتد.

ماژول خود اصلاحی

یکی از محدودیت هایی که محققان Visual ChatGPT با آن مواجه شدند، نتایج ناسازگار تولید شده به دلیل شکست VFM ها و تنوع درخواست ها بود. بنابراین، آنها به این نتیجه رسیدند که باید روی یک ماژول خود تصحیح کار کنند که اطمینان حاصل کند که خروجی های تولید شده مطابق با آنچه کاربر درخواست کرده است و قادر به انجام اصلاحات لازم است.

مقدار بالای GPU مورد نیاز

برای بهره مندی از Visual ChatGPT و استفاده از 22 VFM، به مقدار زیادی رم GPU، به عنوان مثال A100، نیاز دارید. بسته به وظیفه ای که در دست دارید، اطمینان حاصل کنید که متوجه شده اید چقدر GPU برای انجام موثر کار مورد نیاز است.

Visual ChatGPT هنوز محدودیت های خود را دارد، با این حال این یک پیشرفت بزرگ در استفاده از مدل های زبان بزرگ و Computer Vision به طور همزمان است. اگر می خواهید درباره Visual ChatGPT بیشتر بدانید، این مقاله را بخوانید: Visual ChatGPT: صحبت کردن، طراحی و ویرایش با مدل های Visual Foundation

آیا Visual ChatGPT شبیه ChatGPT4 است؟ اگر این دو را امتحان کرده اید، نظر شما چیست؟ در زیر نظر بدهید!

نیشا آریا دانشمند داده، نویسنده فنی آزاد و مدیر انجمن در KDnuggets است. او به ویژه علاقه مند به ارائه مشاوره شغلی یا آموزش های علم داده و دانش مبتنی بر نظریه در مورد علم داده است. او همچنین مایل است راه‌های مختلفی را که هوش مصنوعی می‌تواند به طول عمر انسان کمک کند، کشف کند. یک یادگیرنده مشتاق که به دنبال گسترش دانش فنی و مهارت های نوشتاری خود است و در عین حال به راهنمایی دیگران کمک می کند.

برچسب ها: chat gptChatGPT
نوشته قبلی

چرا پلتفرم های هوش مصنوعی مانند ChatGPT ممکن است برای حمایت از سلامت روان به اندازه کافی خوب نباشند

نوشته‌ی بعدی

ربات چت هوش مصنوعی تشخیص درستی را برای حیوان خانگی بیمار زمانی که دامپزشکان شکست می‌خورند، می‌دهد

نوشته‌ی بعدی
ربات چت هوش مصنوعی تشخیص درستی را برای حیوان خانگی بیمار زمانی که دامپزشکان شکست می‌خورند، می‌دهد

ربات چت هوش مصنوعی تشخیص درستی را برای حیوان خانگی بیمار زمانی که دامپزشکان شکست می‌خورند، می‌دهد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

سپتامبر 12, 2025
VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

سپتامبر 11, 2025
ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

سپتامبر 11, 2025
آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

سپتامبر 11, 2025
Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

سپتامبر 10, 2025
منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

سپتامبر 10, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار