ChatGPT با عمق دانش و روانی پاسخهایش جهان را شگفتزده کرده است، اما یک مشکل مفید بودن آن را مختل کرده است: توهمپردازی را ادامه میدهد.
بله، مدلهای زبان بزرگ (LLM) توهم دارند، مفهومی که توسط محققان هوش مصنوعی گوگل در سال 2018 رایج شد. توهم در این زمینه به اشتباهاتی در متن تولید شده اشاره دارد که از لحاظ معنایی یا نحوی قابل قبول هستند اما در واقع نادرست یا بی معنی هستند. به طور خلاصه، شما نمی توانید به آنچه دستگاه به شما می گوید اعتماد کنید.
به همین دلیل است، در حالی که Codex OpenAI یا Github’s Copilot میتوانند کد بنویسند، یک برنامهنویس باتجربه هنوز باید خروجی را بررسی کند—تایید، تصحیح یا رد شود قبل از اینکه اجازه دهد آن را در یک پایگاه کد قرار دهد که ممکن است ویران کند.
معلمان دبیرستان نیز همین را یاد می گیرند. یک گزارش کتاب نوشته شده با ChatGPT یا یک مقاله تاریخی ممکن است خواندنی باشد، اما به راحتی می تواند حاوی “حقایق” اشتباهی باشد که دانش آموز برای ریشه کن کردن آنها تنبل تر از آن بود.
توهم یک مشکل جدی است. بیل گیتس فکر کرده است که ChatGPT یا مدل های مشابه زبان بزرگ می توانند روزی به افرادی که به پزشک دسترسی ندارند توصیه های پزشکی ارائه دهند. اما نمی توانید به توصیه های یک دستگاه مستعد توهم اعتماد کنید.
OpenAI در حال کار برای رفع توهمات ChatGPT است
Ilya Sutskever، دانشمند ارشد OpenAI و یکی از خالقان ChatGPT، میگوید مطمئن است که این مشکل با گذشت زمان از بین خواهد رفت، زیرا مدلهای زبان بزرگ یاد میگیرند که پاسخهای خود را در واقعیت تثبیت کنند. OpenAI تکنیکی را برای شکل دادن به رفتارهای مدل های خود با استفاده از چیزی به نام یادگیری تقویتی با بازخورد انسانی (RLHF) پیشگام کرده است.
RLHF توسط OpenAI و تیم DeepMind گوگل در سال 2017 به عنوان راهی برای بهبود یادگیری تقویتی زمانی که یک کار شامل اهداف پیچیده یا ضعیف تعریف شده است، توسعه داده شد که طراحی یک تابع پاداش مناسب را دشوار می کند. داشتن یک انسان به طور دورهای خروجی سیستم یادگیری تقویتی را بررسی میکند و بازخورد میدهد به سیستمهای یادگیری تقویتی اجازه میدهد حتی زمانی که تابع پاداش پنهان است، یاد بگیرند.
برای ChatGPT، دادههای جمعآوریشده در طول تعاملات آن برای آموزش یک شبکه عصبی استفاده میشود که بهعنوان یک «پیشبینیکننده پاداش» عمل میکند، که خروجیهای ChatGPT را بررسی میکند و یک امتیاز عددی را پیشبینی میکند که نشاندهنده میزان همسویی آن اقدامات با رفتار مطلوب سیستم است – در این مورد، پاسخ های واقعی یا دقیق
به صورت دورهای، یک ارزیاب انسانی پاسخهای ChatGPT را بررسی میکند و آنهایی را انتخاب میکند که به بهترین شکل رفتار مورد نظر را منعکس میکنند. این بازخورد برای تنظیم شبکه عصبی پیشبینیکننده پاداش، و شبکه عصبی پیشبینیکننده پاداش بهروزرسانی شده برای تنظیم رفتار مدل هوش مصنوعی استفاده میشود. این فرآیند در یک حلقه تکراری تکرار میشود که منجر به بهبود رفتار میشود. Sutskever معتقد است که این فرآیند در نهایت به ChatGPT آموزش می دهد تا عملکرد کلی خود را بهبود بخشد.
Sutskever گفت: «من کاملاً امیدوار هستم که با بهبود این یادگیری تقویتی بعدی از مرحله بازخورد انسانی، بتوانیم به او یاد بدهیم که توهم نداشته باشد.
توهمات ممکن است ذاتی مدل های زبانی بزرگ باشد
اما Yann LeCun، پیشگام در یادگیری عمیق و یادگیری خود نظارتی که در مدلهای بزرگ زبان استفاده میشود، معتقد است نقص اساسیتری وجود دارد که منجر به توهم میشود.
او گفت: «مدلهای زبان بزرگ هیچ ایدهای از واقعیت زیربنایی که زبان توصیف میکند، ندارند،» و افزود که بیشتر دانش بشری غیرزبانی است. «این سیستمها متنی را تولید میکنند که از نظر دستوری و معنایی خوب به نظر میرسد، اما آنها واقعاً هدف دیگری جز ارضای سازگاری آماری با اعلان ندارند.»
انسانها بر اساس دانش زیادی عمل میکنند که هرگز یادداشت نمیشوند، مانند آداب و رسوم، باورها یا اعمال درون یک جامعه که از طریق مشاهده یا تجربه به دست میآیند. و یک صنعتگر ماهر ممکن است دانش ضمنی از هنر خود داشته باشد که هرگز یادداشت نمی شود.
LeCun گفت: “زبان بر روی حجم عظیمی از دانش پیش زمینه ای ساخته شده است که همه ما مشترک هستیم، که ما آن را عقل سلیم می نامیم.” او معتقد است که کامپیوترها برای کسب این نوع دانش غیرزبانی نیاز به یادگیری از طریق مشاهده دارند.
LeCun میگوید: «محدودیتی برای باهوش بودن و دقیق بودن آنها وجود دارد، زیرا آنها هیچ تجربهای از دنیای واقعی ندارند، که واقعاً واقعیت زیربنایی زبان است. “بیشتر چیزهایی که یاد می گیریم ربطی به زبان ندارد.”
جف هینتون، یکی دیگر از پیشگامان یادگیری عمیق، گفت: “ما یاد می گیریم که چگونه توپ بسکتبال را پرتاب کنیم تا از حلقه عبور کند.” ما اصلاً این را با استفاده از زبان یاد نمیگیریم. ما آن را از آزمون و خطا یاد می گیریم.»
اما Sutskever معتقد است که متن از قبل جهان را بیان می کند. او گفت: «مدلهای از پیش آموزشدیده ما از قبل هر آنچه را که باید درباره واقعیت زیربنایی بدانند، میدانند،» و افزود که آنها همچنین دانش عمیقی درباره فرآیندهایی که زبان را تولید میکنند، دارند.
او استدلال کرد در حالی که ممکن است یادگیری از طریق مشاهده مستقیم از طریق بینایی سریعتر باشد، حتی ایدههای انتزاعی را نیز میتوان از طریق متن آموخت، با توجه به حجم – میلیاردها کلمه – که برای آموزش LLM مانند ChatGPT استفاده میشود.
شبکه های عصبی کلمات، جملات و مفاهیم را از طریق قالب قابل خواندن ماشینی به نام جاسازی نمایش می دهند. یک جاسازی، بردارهای با ابعاد بالا – رشته های طولانی اعداد که معنای معنایی آنها را به تصویر می کشد – به فضایی با ابعاد پایین تر، رشته کوتاه تری از اعداد که تجزیه و تحلیل یا پردازش آنها آسان تر است، ترسیم می کند.
ساتسکور توضیح داد که با مشاهده آن رشتههای اعداد، محققان میتوانند ببینند که این مدل چگونه یک مفهوم را به مفهوم دیگر مرتبط میکند. او گفت که مدل می داند که مفهوم انتزاعی مانند بنفش بیشتر به آبی شبیه است تا قرمز و می داند که نارنجی بیشتر به قرمز شباهت دارد تا بنفش. او گفت: “این همه چیز را فقط از روی متن می داند.” در حالی که یادگیری مفهوم رنگ از روی دید بسیار ساده تر است، اما هنوز هم می توان آن را به تنهایی از طریق متن یاد گرفت، فقط آهسته تر.
اینکه آیا خروجی های نادرست را می توان از طریق یادگیری تقویتی با بازخورد انسانی حذف کرد یا نه، باید دید. در حال حاضر، سودمندی مدل های زبان بزرگ در تولید خروجی های دقیق محدود است.
“بیشتر چیزهایی که یاد می گیریم ربطی به زبان ندارد.”
متیو لاج، مدیرعامل Diffblue، شرکتی که از یادگیری تقویتی برای تولید خودکار تست های واحد برای کد جاوا استفاده می کند، گفت: «سیستم های تقویتی به تنهایی کسری از هزینه اجرا هستند و می توانند بسیار دقیق تر از LLM ها باشند، تا جایی که برخی می توانند با حداقل بازبینی انسانی کار کنند.”
Codex و Copilot، هر دو بر اساس GPT-3، آزمایشهای واحد ممکنی را تولید میکنند که یک برنامهنویس با تجربه باید قبل از تعیین مفید بودن آن را بررسی و اجرا کند. اما محصول Diffblue تست های واحد اجرایی را بدون دخالت انسان می نویسد.
لاج میگوید: «اگر هدف شما خودکار کردن کارهای پیچیده و مستعد خطا در مقیاس با هوش مصنوعی است – مانند نوشتن 10000 تست واحد برای برنامهای که هیچ شخصی آن را نمیفهمد – دقت بسیار مهم است. او موافق است که LLM میتواند برای تعامل خلاقانه آزاد باشد، اما هشدار میدهد که دهه گذشته به ما آموخته است که مدلهای بزرگ یادگیری عمیق بسیار غیرقابل پیشبینی هستند، و بزرگتر کردن و پیچیدهتر کردن مدلها این مشکل را برطرف نمیکند. او گفت: «الامها زمانی بهترین کاربرد را دارند که خطاها و توهمات تأثیر زیادی نداشته باشند».
با این وجود، Sutskever گفت که همانطور که مدلهای مولد بهبود مییابند، «آنها درجه تکاندهندهای از درک جهان و بسیاری از ظرافتهای آن را خواهند داشت، همانطور که از دریچه متن دیده میشود».
از مقالات سایت شما
مقالات مرتبط در سراسر وب