هفته گذشته از من دعوت شد تا در یک رونمایی زنده و مجازی از هوش مصنوعی جدید ChatGPT-4 OpenAI شرکت کنم، که تقریباً یک جهش کوانتومی در بهبود در مقایسه با مدل موجود است که از ChatGPT-3.5 در هسته خود استفاده می کند. با توجه به اینکه هوش مصنوعی اولیه تنها در دسامبر گذشته برای عموم عرضه شد، من کمی در مورد اینکه چقدر واقعاً ظرف چند ماه تغییر کرده بود، شک داشتم. اما اشتباه نکنید، ویژگیها و قابلیتهای جدید در ChatGPT-4 واقعاً چشمگیر هستند و به هوش مصنوعی اجازه میدهد کارهایی را انجام دهد که هیچ رایانهای تا به حال قادر به انجام آن نبوده است، و فناوری هوش مصنوعی را یک گام بزرگ به چیزی نزدیکتر میکند که تقریباً از هوش واقعی انسان قابل تشخیص نیست. .
ارائه به طرز شگفتآوری کمکلید بود و اساساً فقط رئیس OpenAI و یکی از بنیانگذاران آن، گرگ براکمن بود که ویژگیهای جدید ChatGPT-4 را نشان میداد و گهگاه نظرات و سؤالات مخاطبان را برای تغذیه مدل جدید هوش مصنوعی میگرفت. اما او واقعاً نیازی به خودنمایی نداشت، زیرا هوش مصنوعی جدید جادوی تکنولوژیکی را انجام می داد که قبلاً هرگز ندیده بودم. ارائه کامل 30 دقیقه ای اکنون در YouTube در دسترس است اگر مردم بخواهند آن را ببینند.
بهبودهای چشمگیر و تدریجی زیادی اعلام شد. برای مثال، ChatGPT-4 اکنون میتواند متنی را با حداکثر 25000 کلمه بپذیرد و به خاطر بسپارد، در مقابل 3000 کلمه با 3.5، بنابراین میتواند اسناد بزرگتر و پیچیدهتر را تجزیه و تحلیل کند و نتایج بزرگتری نیز ارائه دهد. همچنین اشتباهات کمتری در پاسخ به سؤالات مرتکب شده است، چیزی که من آزمایش کردم و بعد از ارائه متوجه شدم که درست است.
ChatGPT-4 چشمان خود را به روی جهان باز می کند
با این حال، بدون شک، چشمگیرترین ویژگی جدید، و یکی که فکر می کنم بیشترین تأثیر را بر تعاملات آینده هوش مصنوعی خواهد داشت، قابلیت های چندوجهی جدید آن است. به عبارت دیگر Chat GPT-4 روی قابلیت پذیرش اطلاعات به صورت تصویر و صدا کار می کند. و برای تصاویر، این فقط به این معنا نیست که بتوانید به یک عکس نگاه کنید و تشخیص دهید که هوش مصنوعی چه چیزی می بیند – مانند اشاره به اینکه چیزی در یک عکس یک گربه یا یک سگ است – بلکه در واقع به این معنی است که می توانید یک تصویر را تجزیه و تحلیل کنید و ارائه دهید. نتیجه گیری یا پیش بینی در مورد آن.
در این ارائه، تصویری از یک سنجاب کارتونی که دوربینی در دست دارد به هوش مصنوعی نشان داده شد و از او پرسید که چه چیزی در این تصویر خنده دار است. هوش مصنوعی به درستی گفت که سنجابها به طور سنتی کارهایی مانند خوردن آجیل انجام میدهند و انتظار نمیرود از دوربین استفاده کنند یا سایر فعالیتهای شبیه انسان را انجام دهند، که این تصویر را تکاندهنده و خندهدار میکند.
منظره جدید ChatGPT-4 به دلیل اپلیکیشنی به نام Be My Eyes است که به تجزیه و تحلیل عکس ها و سایر اسناد بصری کمک می کند. این اپلیکیشن در ابتدا برای کمک به نابینایان در مسیریابی در جهان طراحی شده بود. به نظر می رسد که برای هوش مصنوعی به خوبی کار می کند، اگرچه براکمن تاکید کرد که ویژگی جدید تجزیه و تحلیل بصری برای ChatGPT هنوز در مرحله بتا است.
اما این چیزی بیش از این است که هوش مصنوعی بتواند به یک شی نگاه کند و تشخیص دهد که چیست. سپس ChatGPT-4 می تواند داده ها را در یک عکس تفسیر کند و نتیجه گیری کند. در یک ویدیوی نمایشی کوتاه، OpenAI به ChatGPT-4 تصویری از یک دسته بادکنک روی یک رشته بلند را نشان داد و از آن پرسید که اگر رشته قطع شود چه اتفاقی میافتد. هوش مصنوعی با موفقیت پاسخ داد که بالون ها شناور خواهند شد. در نمونه ویدیویی دیگری، ChatGPT-4 با مشاهده یک عکس توانست با موفقیت استنباط کند که وقتی وزنه سنگینی روی دستگاهی شبیه الاکلنگ انداخته میشود، توپی که در طرف دیگر نشسته بود در هوا پرواز میکند. این نوع استنتاج علت و معلولی که هوش مصنوعی اکنون می تواند فقط از نگاه کردن به عکس انجام دهد، شبیه هیچ کاری است که رایانه ها قبلاً حتی نمی توانستند انجام دهند.
اما از این هم تاثیرگذارتر است. براکمن طرحی بسیار خشن از دیدگاه خود را برای یک وب سایت شوخی نگه داشت که در یک دفترچه یادداشت نوشت. در وبسایت او، کاربران با جوکهای متعدد نمایش داده میشوند و میتوانند روی دکمهای کلیک کنند تا خطوط پانچ را ببینند. اما درک اینکه سایت واقعا چگونه کار می کند دشوار بود زیرا طرحی بسیار خشن بود.
براکمن برای پیشبرد پروژه وب سایت جوک خود، با گوشی خود از طرح خود عکسی گرفت و آن را به ChatGPT-4 فرستاد و از هوش مصنوعی خواست تا به او کمک کند تا ایده خود را پیاده کند. هوش مصنوعی نه تنها آنچه او می خواست را تشخیص داد، بلکه کل وب سایت را بر اساس طرح او برنامه ریزی کرد. این وبسایت دقیقاً همانطور که براکمن در نظر گرفته بود، در عرض 30 ثانیه پس از آپلود طرح، فعال بود.
عملکرد سریع سیستم ارتقا یافته ChatGPT-4 کاربران را تحت کنترل قرار می دهد
بسیاری از ویژگیهای چشمگیر جدید رونمایی شد، اما یکی از زمینههای کلیدی که فکر میکنم بسیاری از مردم در ابتدا ممکن است از آن غافل شوند، بهبود اعلان سیستم است که به کاربران اجازه میدهد نقش هوش مصنوعی را تغییر دهند یا آن را برای انجام وظایف خاص هدایت کنند. با ChatGPT-3.5، اگر کاربری از هوش مصنوعی بخواهد کاری انجام دهد که خیلی خارج از طراحی اصلی آن است، اغلب تسلیم می شود و کار خودش را انجام می دهد. براکمن با گفتن به هوش مصنوعی در فرمان سیستم که دستورالعملهای کاربر را با دقت دنبال کند، پیشرفتها را در نسخه جدید نشان داد.
در ابتدا با استفاده از اعلان سیستم با ChatGPT-3.5، هوش مصنوعی وقتی از او خواسته شد تا کارهای غیرعادی را انجام دهد، واقعاً گوش نمیداد. به عنوان مثال، از آن خواسته شد که سندی را که از صفحات وب OpenAI استخراج شده و توسعه هوش مصنوعی را توصیف میکند، خلاصه کند، اما این کار منحصراً با استفاده از کلماتی که با حرف G شروع میشوند، انجام شود. ChatGPT-3.5 میتوانست سند را خلاصه کند، اما کاربر را نادیده گرفت. درخواست عجیب و غریب در مورد استفاده از حروف خاص و در عوض به برنامه ریزی پیش فرض خود بازگشت. اساساً درخواست سیستم را نادیده گرفت که به آن میگفت تمام دستورالعملهای کاربر را با دقت دنبال کند.
اما زمانی که او در ChatGPT-4 همان چیزی را پرسید، پس از اینکه برای اولین بار به سیستم فرمان گفت که به طور کامل به دستورات کاربر گوش دهد، دقیقاً همان چیزی را که از آن خواسته شده بود انجام داد و خلاصهای را ارائه کرد که به شرح زیر بود: «GPT-4 غولپیکر رشدی پیشگامانه به دست میآورد. تا حد زیادی اهداف جهانی را تقویت می کند.» بعداً وقتی براکمن از مخاطبان خواست تا حرف دیگری را برای استفاده با همان پرس و جو بنویسد، شخصی حرف Q را پیشنهاد کرد که غیرممکن به نظر می رسید. اما هوش مصنوعی برای این چالش آماده بود و خلاصهای با محوریت Q را ارائه کرد: «GPT-4 اساساً کمیسازی کیفیت را تسریع میکند و مشکلات مشکوک را از بین میبرد.»
بعداً در ارائه، براکمن مجدداً محیطهای هوش مصنوعی را تغییر داد، این بار از آن خواست که قبل از دادن کد مالیاتی مانند یک دستیار مالیاتی عمل کند و سؤالات خاصی در مورد مواردی مانند کسورات استاندارد برای افراد با سطوح درآمد مشخص بپرسد. به نظر می رسید همه چیز درست است، اگرچه چه کسی واقعاً می تواند همه چیز را در کد مالیاتی این روزها درک کند؟
مفهوم تغییر یا پیکربندی مجدد یک هوش مصنوعی برای انجام آنچه نیاز دارید چیز جدیدی نیست. من هنوز هم سعی می کنم اغلب اوقات AI Dungeon را بازی کنم. و اگرچه نسبت به ChatGPT پیشرفت کمتری دارد، اما به کاربران این امکان را می دهد که داستان های خود را بسته به نوع بازی ای که می خواهند با آن بازی کنند یا سبک تعاملی که می خواهند از آن استفاده کنند، تغییر دهند. بنابراین، اجازه دادن به کاربران برای اصلاح رفتار AI اصلی یک مفهوم قدیمی است، اما بیشتر هوش مصنوعی ها به اندازه کافی پیشرفته نیستند که آن را خیلی دور ببرند. حتی ChatGPT-3.5 نیز در بسیاری از مواقع قادر به جدا شدن بیش از حد از طراحی اصلی خود نبود.
این واقعیت که به نظر میرسد افزودن نقشهای جدید به هوش مصنوعی ویژگیای است که در ChatGPT-4 کار میکند، مسئله بزرگی است زیرا به هوش مصنوعی اجازه میدهد تا هر ابزاری را که کاربر نیاز دارد، بهتر استفاده کند. و این، حتی بیشتر از ویژگیهای جدید تشخیص بصری، ممکن است همان چیزی باشد که همچنان به توسعه هوش مصنوعی ارزش افزوده میدهد، به طوری که به یک دارایی برای افرادی تبدیل میشود که در آینده انواع وظایف منحصر به فرد را انجام میدهند.
در حال حاضر، کاربرانی که با نسخه رایگان ChatGPT تعامل دارند، به مدل ChatGPT-3.5 دسترسی خواهند داشت که هنوز هم بسیار خوب است. اما برای دسترسی به ChatGPT-4، آنها باید یک اشتراک بخرند که در حال حاضر 20 دلار در ماه قیمت دارد. توسعهدهندگانی که میخواهند ChatGPT-4 را در برنامههای خود بگنجانند، میتوانند با قراردادی نیز این کار را انجام دهند که قیمت تعیینشدهای را برای هر پرس و جو دریافت میکند.
جان بریدن دوم یک روزنامه نگار و منتقد برنده جایزه با بیش از 20 سال تجربه در پوشش فناوری است. او مدیر عامل شرکت است دفتر نویسندگان فناوری، گروهی که محتوای رهبری فکری فناورانه را برای سازمان ها در هر اندازه ایجاد می کند. توییتر: @LabGuys