اعتبار تصویر: دیوید پل موریس / بلومبرگ / گتی ایماژ
OpenAI یک مدل هوش مصنوعی قدرتمند جدید با درک تصویر و متن، GPT-4 را منتشر کرده است که این شرکت آن را “آخرین نقطه عطف در تلاش خود در افزایش یادگیری عمیق” می نامد.
GPT-4 امروز برای کاربران پرداخت کننده OpenAI از طریق ChatGPT Plus (با محدودیت استفاده) در دسترس است و توسعه دهندگان می توانند برای دسترسی به API در لیست انتظار ثبت نام کنند.
قیمت 0.03 دلار به ازای هر 1000 توکن “سریع” (حدود 750 کلمه) و 0.06 دلار برای هر 1000 توکن “تکمیل” (دوباره، حدود 750 کلمه) است. توکن ها متن خام را نشان می دهند. به عنوان مثال، کلمه “فوق العاده” به نشانه های “فن”، “تاس” و “تیک” تقسیم می شود. نشانههای اعلان قسمتهایی از کلمات هستند که به GPT-4 وارد میشوند در حالی که نشانههای تکمیل محتوا هستند. تولید شده است توسط GPT-4.
همانطور که مشخص است GPT-4 در معرض دید عموم پنهان شده است. مایکروسافت امروز تأیید کرد که Bing Chat، فناوری چت بات آن که با OpenAI توسعه یافته است، روی GPT-4 اجرا می شود.
دیگر پذیرندگان اولیه عبارتند از Stripe که از GPT-4 برای اسکن وبسایتهای تجاری و ارائه خلاصهای به کارکنان پشتیبانی مشتری استفاده میکند، و Duolingo که GPT-4 را در یک ردیف اشتراک یادگیری زبان جدید ایجاد کرد. مورگان استنلی در حال ساخت یک سیستم مجهز به GPT-4 است که اطلاعات را از اسناد شرکت بازیابی می کند و در عین حال در اختیار تحلیلگران مالی قرار می دهد. و Khan Academy در حال استفاده از GPT-4 برای ایجاد یک معلم خصوصی خودکار است.
GPT-4 میتواند متن تولید کند و ورودیهای تصویر و متن را بپذیرد – بهبودی نسبت به GPT-3.5، نسخه قبلی که فقط متن را میپذیرفت – و در معیارهای مختلف حرفهای و آکادمیک در “سطح انسانی” عمل میکند. به عنوان مثال، GPT-3 یک آزمون وکالت شبیه سازی شده را با امتیازی در حدود 10 درصد از شرکت کنندگان برتر قبول می کند.
به گفته این شرکت، OpenAI شش ماه را با استفاده از درسهایی از یک برنامه آزمایشی خصمانه داخلی و همچنین ChatGPT «همسوسازی مکرر» GPT-4 انجام داد که به گفته این شرکت، «بهترین نتایج» را در مورد واقعی بودن، قابلیت هدایت و امتناع از رفتن به بیرون از نردههای محافظ به دست آورد. مانند مدلهای قبلی GPT، GPT-4 با استفاده از دادههای در دسترس عموم، از جمله از صفحات وب عمومی، و همچنین دادههایی که OpenAI مجوز داده بود، آموزش داده شد.
OpenAI در یک پست وبلاگی که GPT-4 را اعلام کرد، نوشت: “در یک مکالمه معمولی، تمایز بین GPT-3.5 و GPT-4 می تواند ظریف باشد.” تفاوت زمانی آشکار می شود که پیچیدگی کار به آستانه کافی برسد – GPT-4 قابل اعتمادتر، خلاقانه تر است و قادر است دستورالعمل های ظریف تری را نسبت به GPT-3.5 انجام دهد.
بدون شک، یکی از جنبه های جالب GPT-4 توانایی آن در درک تصاویر و همچنین متن است. GPT-4 می تواند تصاویر نسبتاً پیچیده را زیرنویس کند – و حتی تفسیر کند – به عنوان مثال، یک آداپتور کابل لایتنینگ را از تصویر یک آیفون متصل شناسایی کند.
قابلیت درک تصویر هنوز برای همه مشتریان OpenAI در دسترس نیست – OpenAI برای شروع آن را با یک شریک به نام Be My Eyes آزمایش می کند. ویژگی جدید Virtual Volunteer Be My Eyes با پشتیبانی از GPT-4 میتواند به سؤالات مربوط به تصاویر ارسال شده به آن پاسخ دهد.
Be My Eyes نحوه عملکرد آن را در یک پست وبلاگ توضیح می دهد:
به عنوان مثال، اگر یک کاربر تصویری از داخل یخچال خود ارسال کند، داوطلب مجازی نه تنها میتواند به درستی آنچه در آن است شناسایی کند، بلکه آنچه را که میتوان با آن مواد تهیه کرد را نیز تعمیم و تجزیه و تحلیل کرد. این ابزار همچنین میتواند تعدادی دستور العمل برای این مواد ارائه دهد و راهنمای گام به گام نحوه درست کردن آنها را ارسال کند.
یک پیشرفت معنادارتر، به طور بالقوه، ابزار فرمان پذیری فوق الذکر است. با GPT-4، OpenAI در حال معرفی یک قابلیت API جدید، پیامهای «سیستم» است که به توسعهدهندگان اجازه میدهد تا با توصیف مسیرهای خاص، سبک و کار را تجویز کنند. پیامهای سیستم، که در آینده به ChatGPT نیز میآیند، اساساً دستورالعملهایی هستند که لحن و مرزها را برای تعاملات بعدی هوش مصنوعی تعیین میکنند.
به عنوان مثال، یک پیام سیستم ممکن است به شرح زیر باشد:
شما معلمی هستید که همیشه به سبک سقراطی پاسخ می دهید. شما هرگز پاسخ دانش آموز را بدهید، اما همیشه سعی کنید سوال درست را بپرسید تا به آنها کمک کنید تا خودشان فکر کنند. شما باید همیشه سوال خود را با علاقه و دانش دانشآموز تنظیم کنید و مسئله را به بخشهای سادهتر تقسیم کنید تا زمانی که در سطح مناسب برای آنها باشد.»
با وجود پیامهای سیستم و سایر ارتقاءها، OpenAI اذعان میکند که GPT-4 کامل نیست. هنوز هم حقایق را “توهم” می کند و اشتباهات استدلالی را مرتکب می شود، گاهی اوقات با اطمینان زیادی. در یک مثال که توسط OpenAI ذکر شده است، GPT-4 الویس پریسلی را “پسر یک بازیگر” توصیف کرد – یک اشتباه آشکار.
OpennAI نوشت: «GPT-4 عموماً از رویدادهایی که پس از قطع شدن اکثریت قریب به اتفاق دادههایش (سپتامبر 2021) رخ دادهاند، آگاهی ندارد و از تجربهاش درس نمیگیرد. “گاهی اوقات ممکن است خطاهای استدلالی ساده ای ایجاد کند که به نظر نمی رسد با صلاحیت در بسیاری از حوزه ها مطابقت داشته باشد، یا در پذیرش اظهارات نادرست آشکار از یک کاربر بیش از حد ساده لوح باشد. و گاهی اوقات میتواند در مشکلات سخت مانند انسانها شکست بخورد، مانند وارد کردن آسیبپذیریهای امنیتی به کدی که تولید میکند.»
با این حال، OpenAI اشاره میکند که در زمینههای خاصی پیشرفتهایی انجام داده است – GPT-4 به احتمال کمتر درخواستهایی را درباره نحوه سنتز مواد شیمیایی خطرناک رد میکند. این شرکت میگوید که احتمال اینکه GPT-4 در مجموع 82 درصد کمتر به درخواستهای محتوای «مجاز» در مقایسه با GPT-3.5 پاسخ دهد و به درخواستهای حساس (مثلاً توصیههای پزشکی و هر چیزی که مربوط به خودزنی باشد) مطابق با OpenAI پاسخ میدهد. سیاست ها 29 درصد بیشتر است.
OpenAI نوشت: “ما مشتاقانه منتظریم که GPT-4 به ابزاری ارزشمند در بهبود زندگی مردم با تقویت برنامه های کاربردی بسیاری تبدیل شود.” “هنوز کار زیادی برای انجام دادن وجود دارد، و ما مشتاقانه منتظر بهبود این مدل از طریق تلاش های جمعی جامعه سازی در بالای مدل، کاوش و مشارکت در آن هستیم.”