هفته گذشته، در کنفرانس سالانه گوگل که به محصولات و فناوری های جدید اختصاص داشت، این شرکت تغییری را در محصول برتر هوش مصنوعی خود اعلام کرد: چت ربات Bard، مانند GPT-4 OpenAI، به زودی قادر به توصیف تصاویر خواهد بود. اگرچه ممکن است بهروزرسانی جزئی به نظر برسد، اما این بهبود بخشی از یک انقلاب آرام در نحوه توسعه و استفاده شرکتها، محققان و مصرفکنندگان از هوش مصنوعی است که این فناوری را نه تنها فراتر از ترکیب مجدد زبان نوشتاری و به رسانههای مختلف، بلکه به سمت هدف عالیتر سوق میدهد. درک غنی و کامل از جهان. ChatGPT شش ماهه است و در حال حاضر قدیمی به نظر می رسد.
آن برنامه و پسرعموهایش که به عنوان مدلهای زبان بزرگ شناخته میشوند، با پیشبینی اینکه چه کلماتی از نظر آماری احتمالاً در یک جمله دنبال یکدیگر میآیند، هوش را تقلید میکنند. محققان این مدلها را بر روی متنهای بیشتر آموزش دادهاند – در این مرحله، هر کتابی و سپس برخی از آنها – با این پیشفرض که ماشینهای اجباری کلمات بیشتری را در پیکربندیهای مختلف پیشبینیهای بهتر و برنامههای هوشمندانهتری ارائه میدهند. این رویکرد حداکثری متن در توسعه هوش مصنوعی، به ویژه در میان عمومی ترین محصولات شرکتی، برای سال ها غالب بوده است.
اما مدلهای فقط زبان مانند ChatGPT اصلی اکنون جای خود را به ماشینهایی دادهاند که میتوانند تصاویر، صدا و حتی دادههای حسی رباتها را نیز پردازش کنند. رویکرد جدید ممکن است منعکس کننده درک بیشتر انسانی از هوش باشد، تلاشی اولیه برای تقریب زدن نحوه یادگیری کودک از طریق حضور در جهان و مشاهده آن. همچنین ممکن است به شرکتها کمک کند تا هوش مصنوعی بسازند که بتواند کارهای بیشتری انجام دهد و بنابراین در محصولات بیشتری بستهبندی شود.
GPT-4 و Bard تنها برنامه هایی نیستند که این قابلیت های توسعه یافته را دارند. همچنین هفته گذشته متا برنامه ای به نام ImageBind منتشر کرد که متن، تصاویر، صدا، اطلاعات مربوط به عمق، تابش مادون قرمز و اطلاعات حرکت و موقعیت را پردازش می کند. PaLM-E اخیر گوگل بر روی داده های حسی زبان و ربات آموزش دیده است و این شرکت مدل جدید و قدرتمندتری را معرفی کرده است که فراتر از متن حرکت می کند. مایکروسافت مدل خود را دارد که بر روی کلمات و تصاویر آموزش داده شده است. مولدهای تبدیل متن به تصویر مانند DALL-E 2 که تابستان گذشته اینترنت را مجذوب خود کرد، بر روی تصاویر زیرنویس آموزش دیده اند.
اینها به عنوان شناخته می شوند چند وجهی مدلها – متن یک روش است و تصاویر روشی دیگر – و بسیاری از محققان امیدوارند که هوش مصنوعی را به ارتفاعات جدیدی برسانند. بزرگترین آینده، آیندهای است که در آن هوش مصنوعی به نوشتن مقالههای فرمولی و کمک به افراد در Slack محدود نمیشود. میتواند بدون ساختن چیزهایی در اینترنت جستجو کند، یک ویدیو را متحرک کند، یک ربات را راهنمایی کند، یا یک وبسایت به تنهایی ایجاد کند (همانطور که GPT-4 در یک نمایش انجام داد، بر اساس مفهومی که توسط یک انسان ترسیم شده بود).
یک رویکرد چندوجهی از نظر تئوری میتواند یک مشکل اصلی را در مورد مدلهای فقط زبانی حل کند: حتی اگر آنها بتوانند کلمات را بهطور روان به هم متصل کنند، برای اتصال آن کلمات به مفاهیم، ایدهها، اشیا یا رویدادها تلاش میکنند. ملانی میچل، محقق هوش مصنوعی و دانشمند شناختی در مؤسسه سانتافه، می گوید: «وقتی آن ها در مورد ترافیک صحبت می کنند، هیچ تجربه ای از راه بندان بیشتر از آنچه از زبان دیگر با آن در ارتباط هستند، ندارند. به من گفت – اما اگر دادههای آموزشی یک هوش مصنوعی میتواند شامل ویدیوهایی از راهبندان باشد، «اطلاعات بیشتری وجود دارد که میتوانند به دست آورند». یادگیری از انواع بیشتری از دادهها میتواند به مدلهای هوش مصنوعی کمک کند تا محیطهای فیزیکی را تصور کنند و با آنها تعامل داشته باشند، چیزی نزدیک به عقل سلیم ایجاد کنند و حتی مشکلات مربوط به ساخت را برطرف کنند. اگر یک مدل دنیا را درک کند، ممکن است کمتر چیزی در مورد آن اختراع کند.
تلاش برای مدلهای چندوجهی کاملاً جدید نیست. گوگل، فیسبوک و دیگران تقریباً یک دهه پیش سیستمهای خودکار شرح تصاویر را معرفی کردند. جینگ یو کو، که در کارنگی ملون بر روی هوش مصنوعی چندوجهی مطالعه میکند، به من گفت که چند تغییر کلیدی در تحقیقات هوش مصنوعی، رویکردهای متقابل دامنه را در چند سال گذشته ممکنتر و امیدوارکنندهتر کرده است. در حالی که برای چندین دهه، رشتههای علوم کامپیوتر مانند پردازش زبان طبیعی، بینایی کامپیوتر و روباتیک از روشهای بسیار متفاوتی استفاده میکردند، اکنون همگی از یک روش برنامهنویسی به نام «یادگیری عمیق» استفاده میکنند. در نتیجه، کدها و رویکردهای آنها شبیهتر شدهاند و مدلهای آنها راحتتر میتوانند با یکدیگر ادغام شوند. و غولهای اینترنتی مانند گوگل و فیسبوک مجموعهای از دادههای بزرگتر از تصاویر و ویدیوها را تنظیم کردهاند و رایانهها به اندازه کافی قدرتمند میشوند تا آنها را مدیریت کنند.
یک دلیل عملی نیز برای تغییر وجود دارد. اینترنت، مهم نیست که چقدر بزرگ و نامفهوم به نظر می رسد، حاوی مقدار متناهی متن برای آموزش هوش مصنوعی است. دانیل فرید، دانشمند کامپیوتر در Carnegie Mellon، به من گفت و محدودیتی واقع بینانه برای اینکه این برنامه ها چقدر می توانند بزرگ و ناکارآمد باشند، و همچنین میزان قدرت محاسباتی آنها وجود دارد. محققان “شروع به حرکت فراتر از متن کرده اند تا امیدوارند مدل ها با داده هایی که می توانند جمع آوری کنند، توانمندتر شوند.” در واقع، سام آلتمن، مدیرعامل OpenAI و تا حدی به لطف شهادت این هفته سنا، نوعی پسر پوستر برای صنعت، گفته است که عصر مقیاسگذاری مدلهای مبتنی بر متن احتمالاً به پایان رسیده است – تنها چند ماه پس از اینکه ChatGPT به سریعترین تبدیل شد. برنامه مصرف کننده در حال رشد در تاریخ
اینکه چقدر هوش مصنوعی چندوجهی دنیا را بهتر از ChatGPT میفهمد و زبان آن چقدر روانتر خواهد بود، جای بحث دارد. اگرچه بسیاری از آنها عملکرد بهتری نسبت به برنامههای فقط زبانی دارند – به ویژه در کارهایی که شامل تصاویر و سناریوهای سه بعدی است، مانند توصیف عکسها و تجسم نتیجه یک جمله – در سایر حوزهها، آنها به این خوبی نبودهاند. در گزارش فنی همراه با GPT-4، محققان OpenAI تقریباً هیچ بهبودی در عملکرد تست استاندارد با اضافه کردن دید گزارش نکردند. این مدل همچنین به توهم پردازی ادامه می دهد – با اطمینان اظهارات نادرستی می دهد که پوچ، به طرز نامحسوسی اشتباه است، یا به وضوح نفرت انگیز است. PalM-E گوگل در واقع این کار را انجام داد بدتر در مورد وظایف زبانی نسبت به مدل PalM فقط زبان، شاید به این دلیل که افزودن اطلاعات حسی ربات با از دست دادن مقداری زبان در دادهها و تواناییهای آموزشی آن منتفی شد. فرید گفت، با این حال، چنین تحقیقاتی در مراحل اولیه خود است و می تواند در سال های آینده بهبود یابد.
ما از هر چیزی که واقعاً طرز تفکر مردم را تقلید کند، فاصله داریم. میچل به من گفت: «این که آیا این مدلها قرار است به هوش سطح انسانی برسند یا خیر، فکر میکنم با توجه به نوع معماریهایی که در حال حاضر استفاده میکنند، این احتمال وجود ندارد. حتی اگر برنامهای مانند ImageBind متا بتواند تصاویر و صداها را پردازش کند، انسانها نیز از طریق تعامل با افراد دیگر یاد میگیرند، حافظه بلندمدت دارند و بر اساس تجربه رشد میکنند و محصول میلیونها سال تکامل هستند – فقط چند راه را نام ببریم. هوش مصنوعی و ارگانیک همسو نیستند.
و همانطور که پرتاب دادههای متنی بیشتر در مدلهای هوش مصنوعی مشکلات دیرینه بایاس و ساخت را حل نکرد، پرتاب اطلاعات بیشتر انواع داده های موجود در ماشین ها نیز لزوماً این کار را نمی کنند. برنامهای که نه تنها متن مغرضانه، بلکه تصاویر مغرضانه را مصرف میکند، همچنان خروجیهای مضری تولید میکند، فقط در رسانههای بیشتری. برای مثال، مدلهای تبدیل متن به تصویر مانند Stable Diffusion، تعصبهای نژادپرستانه و جنسیتی مانند مرتبط کردن چهرههای سیاه را با این کلمه تداوم میدهند. اراذل و اوباش. زیرساختهای غیرشفاف و مجموعه دادههای آموزشی، تنظیم و ممیزی نرمافزار را سخت میکند. احتمال نقض حقوق کار و کپیرایت تنها ممکن است افزایش یابد زیرا هوش مصنوعی مجبور است انواع بیشتری از دادهها را جمعآوری کند.
حتی ممکن است هوش مصنوعی چندوجهی باشد بیشتر میچل گفت که نسبت به مدل هایی که فقط به زبان مهارت دارند، مستعد انواع خاصی از دستکاری ها، مانند تغییر پیکسل های کلیدی در تصویر هستند. برخی از اشکال ساختگی احتمالاً ادامه خواهند داشت و شاید حتی قانعکنندهتر و خطرناکتر باشند زیرا توهمات بصری خواهند بود – تصور کنید هوش مصنوعی رسوایی در مقیاس تصاویر جعلی از دستگیری دونالد ترامپ را به تصویر بکشد. Koh گفت: «من فکر نمیکنم که چندوجهی بودن یک گلوله نقرهای یا چیزی برای بسیاری از این مسائل باشد.
به کنار هوش، هوش مصنوعی چندوجهی ممکن است پیشنهاد تجاری بهتری باشد. مدلهای زبان در حال حاضر یک عجله طلا برای دره سیلیکون هستند: پیش از رونق شرکتها در چندوجهی، طبق گزارشها، OpenAI انتظار یک میلیارد دلار درآمد تا سال 2024 را داشت. چندین تحلیل اخیر پیشبینی میکنند که ChatGPT طی چند سال دهها میلیارد دلار به درآمد سالانه مایکروسافت اضافه خواهد کرد.
چندوجهی بودن می تواند مانند جستجوی الدورادو باشد. چنین برنامه هایی به سادگی بیشتر از ChatGPT ساده و فقط متنی به مشتریان ارائه می دهند، مانند توصیف تصاویر و ویدیوها، تفسیر یا حتی تولید نمودارها، دستیارهای شخصی مفیدتر و غیره. هوش مصنوعی چندوجهی میتواند به مشاوران و سرمایهگذاران ریسکپذیر کمک کند تا عرشههای اسلاید بهتری بسازند، نرمافزار موجود اما نقطهای را که تصاویر و محیط را برای افراد کم بینا توصیف میکند، بهبود بخشد، پردازش پروندههای سلامت الکترونیکی سنگین را سرعت بخشد، و ما را در خیابانها نه بهعنوان نقشه، بلکه با استفاده از آن راهنمایی کند. مشاهده ساختمان های اطرافمان
کاربردهایی در رباتیک، ماشینهای خودران، پزشکی و موارد دیگر به راحتی قابل تصور است، حتی اگر هرگز محقق نشود – مانند شهری طلایی که، حتی اگر افسانهای بودن آن ثابت شود، باز هم تسخیر را توجیه میکند. چندوجهی نیازی به تولید واضح بیشتر نخواهد داشت باهوش ماشین آلات برای نگه داشتن فقط باید موارد ظاهراً سودآورتری ایجاد کند.