مایکروسافت با Visual ChatGPT مسابقه هوش مصنوعی را بدون کاهش شیفت ادامه می دهد. Visual ChatGPT مدل جدیدی است که ChatGPT و VFMها از جمله Transformers، ControlNet و Stable Diffusion را ترکیب می کند. خوب به نظر می رسد؟ این تکنیک همچنین امکان فراتر رفتن از موانع زبانی را برای مکالمات ChatGPT فراهم می کند. با نزدیک شدن به تاریخ انتشار GPT-4، آینده ChatGPT هر روز روشن تر می شود.
اگرچه تعداد زیادی تولید کننده تصویر هوش مصنوعی موفق مانند DALL-E 2، Wombo Dream و موارد دیگر وجود دارد، یک ابزار هنری جدید هوش مصنوعی همیشه با استقبال گرم جامعه روبرو می شود. آیا Visual ChatGPT این سنت را ادامه خواهد داد؟ بیایید نگاه دقیق تری بیندازیم.
Visual ChatGPT چیست؟
Visual ChatGPT مدل جدیدی است که ChatGPT را با VFMهایی مانند Transformers، ControlNet و Stable Diffusion ترکیب می کند. در اصل، مدل هوش مصنوعی به عنوان پلی بین کاربران عمل می کند و به آنها اجازه می دهد از طریق چت با هم ارتباط برقرار کنند و تصاویری تولید کنند.
ChatGPT در حال حاضر محدود به نوشتن توضیحات برای استفاده با Stable Diffusion، DALL-E، یا Midjourney است. نمی تواند به تنهایی تصاویر را پردازش یا تولید کند. با این حال، با مدل Visual ChatGPT، سیستم میتواند یک تصویر تولید کند، آن را اصلاح کند، عناصر ناخواسته را حذف کند و کارهای بیشتری انجام دهد.
ChatGPT به دلیل شایستگی محاورهای و تواناییهای استدلالی قابل توجه خود در بخشهای متعدد، توجه بینرشتهای را به خود جلب کرده است، که در نتیجه یک انتخاب عالی برای رابط زبان است.
با این حال، آموزش زبانی آن را از پردازش یا تولید تصاویر از محیط بصری منع می کند. در همین حال، مدلهایی که پایههای بصری دارند، مانند Visual Transformers یا Steady Diffusion، درک بصری و تواناییهای تولیدی چشمگیری را هنگام انجام وظایف با ورودیها و خروجیهای ثابت یک دور نشان میدهند. یک مدل جدید مانند Visual ChatGPT را می توان با ترکیب این دو مدل ایجاد کرد.
ما به جای آموزش یک ChatGPT چند وجهی جدید از ابتدا، Visual ChatGPT را مستقیماً بر اساس ChatGPT ایجاد می کنیم و انواع VFM ها را در خود جای می دهیم.
-مایکروسافت
این به کاربران امکان می دهد با ChatGPT به روش هایی که فراتر از کلمات است ارتباط برقرار کنند.
مدل های پایه ویژوال (VFM) چیست؟
عبارت «مدلهای پایه بصری» (VFMs) معمولاً برای مشخص کردن گروهی از الگوریتمهای بنیادی مورد استفاده در بینایی رایانه به کار میرود. این روشها برای انتقال مهارتهای بینایی کامپیوتری استاندارد به برنامههای هوش مصنوعی استفاده میشوند و میتوانند به عنوان پایهای برای مدلهای پیچیدهتر عمل کنند.
یادگیری نحوه استفاده از هوش مصنوعی یک تغییر دهنده بازی است
ویژگی های Visual ChatGPT
محققان مایکروسافت سیستمی به نام Visual ChatGPT ایجاد کردهاند که دارای مدلهای بنیادی بصری و رابطهای کاربری گرافیکی برای تعامل با ChatGPT است.
چه چیزی با Visual ChatGPT تغییر خواهد کرد؟ قادر به انجام موارد زیر خواهد بود:
- علاوه بر متن، Visual ChatGPT نیز ممکن است تصاویر تولید و دریافت کند.
- پرسشهای بصری پیچیده یا دستورالعملهای ویرایشی که نیاز به همکاری مدلهای هوش مصنوعی مختلف در چندین مرحله را دارند، میتوانند توسط Visual ChatGPT رسیدگی شوند.
- برای مدیریت مدلهایی با ورودی/خروجیهای زیاد و مدلهایی که نیاز به بازخورد بصری دارند، محققان مجموعهای از دستورات را ایجاد کردند که اطلاعات مدل بصری را در ChatGPT یکپارچه میکند. آنها از طریق آزمایش دریافتند که Visual ChatGPT بررسی قابلیتهای بصری ChatGPT را با استفاده از مدلهای پایه بصری تسهیل میکند.
هنوز کامل نیست. محققان مشکلات خاصی را در کار خود مشاهده کردند، مانند نتایج ناسازگار ایجاد شده ناشی از شکست مدلهای بنیاد بصری (VFM) و تنوع درخواستها. آنها به این نتیجه رسیدند که یک ماژول خود تصحیح کننده لازم است تا تضمین کند که نتایج اجرا با اهداف انسانی مطابقت دارد و هر گونه اصلاحات لازم را انجام دهد. با توجه به نیاز به اصلاح دوره مداوم، گنجاندن چنین ماژولی می تواند زمان استنتاج مدل را طولانی تر کند. این تیم در نظر دارد در مطالعه بعدی تحقیقات عمیق تری در این زمینه انجام دهد.
چگونه از Visual ChatGPT استفاده کنیم؟
ابتدا باید دموی Visual ChatGPT را اجرا کنید. با توجه به صفحه GitHub آن، در اینجا چیزی است که باید برای آن انجام دهید:
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
پس از اینکه نسخه آزمایشی Visual ChatGPT شروع به اجرا شدن بر روی رایانه شخصی شما کرد، تنها چیزی که برای این کار نیاز دارید این است که به آن دستور بدهید!
با استفاده از ابزارهایی مانند Visual ChatGPT، منحنی یادگیری برای مدلهای متن به تصویر ممکن است کاهش یابد و برنامههای هوش مصنوعی مختلف میتوانند با یکدیگر ارتباط برقرار کنند. مدلهای پیشرفته قبلی، مانند مدلهای LLM و T2I، بهصورت مجزا توسعه داده شدند. اما، با کمک نوآوری ها، ممکن است بتوانیم عملکرد آنها را به طور قابل توجهی بهبود دهیم.
وقتی صحبت از تولید تصاویر با ChatGPT می شود، بلافاصله GPT-4 به ذهن خطور می کند. پس چه زمانی این مدل مورد انتظار عرضه خواهد شد؟
تاریخ انتشار GPT-4
به گفته مدیر ارشد فناوری مایکروسافت آلمان (CTO) یک مدل هوش مصنوعی جدید به نام GPT-4 توسط OpenAI، شرکت سازنده ChatGPT، در اوایل هفته آینده منتشر خواهد شد. این نسخه جدید به طور گسترده ای نسبت به نسخه قبلی خود بسیار توانمندتر است، که راه را برای پذیرش گسترده هوش مصنوعی مولد در تجارت هموار می کند.
مایکروسافت از سال 2019، زمانی که یک میلیارد دلار در OpenAI سرمایه گذاری کرد، شریک حیاتی استارت آپ هوش مصنوعی بوده است. مایکروسافت پس از موفقیت چشمگیر ChatGPT، یک چت ربات مبتنی بر هوش مصنوعی که در ماههای اخیر اینترنت را طوفانی کرده است، در ژانویه چندین میلیارد دلار سهم خود را در آزمایشگاه هوش مصنوعی افزایش داد.
استفاده از حافظه گرافیکی Visual ChatGPT
Visual ChatGPT همچنین فهرستی از استفاده از حافظه GPU هر مدل پایه تصویری را به اشتراک گذاشته است.
مدل پایه | میزان استفاده از حافظه (MB) |
---|---|
ویرایش تصویر | 6667 |
ImageCaption | 1755 |
T2I | 6677 |
canny2image | 5540 |
خط 2 تصویر | 6679 |
hed2image | 6679 |
Scribble2 Image | 6679 |
pose2image | 6681 |
BLIPVQA | 2709 |
seg2image | 5540 |
عمق 2 تصویر | 6677 |
تصویر normal2 | 3974 |
InstructPix2Pix | 2795 |
برای ذخیره حافظه GPU خود، می توانید “self.tools” را با مدل های پایه بصری کمتری تغییر دهید.
برای اطلاعات دقیق تر، مقاله را بررسی کنید.
AI 101
آیا با هوش مصنوعی تازه کار هستید؟ هنوز هم می توانید سوار قطار هوش مصنوعی شوید! ما یک واژه نامه دقیق هوش مصنوعی برای رایج ترین اصطلاحات هوش مصنوعی ایجاد کرده ایم و اصول اولیه هوش مصنوعی و همچنین خطرات و مزایای هوش مصنوعی را توضیح می دهیم. با خیال راحت از آنها استفاده کنید.
سایر ابزارهای هوش مصنوعی که بررسی کرده ایم
تقریباً هر روز یک ابزار، مدل یا ویژگی جدید ظاهر می شود و زندگی ما را تغییر می دهد و ما قبلاً برخی از بهترین آنها را بررسی کرده ایم:
آیا می خواهید نحوه استفاده موثر از ChatGPT را یاد بگیرید؟ ما چند نکته و ترفند برای شما بدون تغییر به ChatGPT Plus داریم! مهندسی سریع هوش مصنوعی کلید جهان های بی حد و حصر است، اما باید مراقب باشید. وقتی میخواهید از ابزار هوش مصنوعی استفاده کنید، میتوانید خطاهایی مانند «ChatGPT در حال حاضر در ظرفیت است» و «تعداد زیادی درخواستها در 1 ساعت بعد دوباره امتحان کنید» دریافت کنید. بله، آنها واقعاً خطاهای آزاردهنده هستند، اما نگران نباشید. ما می دانیم که چگونه آنها را تعمیر کنیم.
در حالی که هنوز بحث هایی در مورد تصاویر تولید شده توسط هوش مصنوعی وجود دارد، مردم همچنان به دنبال بهترین تولیدکنندگان هنر هوش مصنوعی هستند. آیا هوش مصنوعی جایگزین طراحان خواهد شد؟ به خواندن ادامه دهید و متوجه شوید.