در این مرحله، بسیاری از نقایص مدلهای زبان مبتنی بر هوش مصنوعی تا حد مرگ مورد تجزیه و تحلیل قرار گرفتهاند – صداقت غیرقابل اصلاح آنها، ظرفیت آنها برای تعصب و تعصب، فقدان عقل سلیم. GPT-4، جدیدترین و پیشرفتهترین مدلی از این دست تاکنون، در حال حاضر مورد بررسی دقیق قرار گرفته است و به نظر میرسد که تقریباً در تمام روشهایی که مدلهای قبلی انجام میدادند، اشتباه میکند. اما مدلهای زبانی بزرگ نقص دیگری دارند که تاکنون توجه نسبتا کمی را به خود جلب کرده است: یادآوری نامناسب آنها. این برنامههای چند میلیارد دلاری، که برای اجرا به انرژی چندین بلوک شهر نیاز دارند، اکنون میتوانند وبسایتها را کدنویسی کنند، برای تعطیلات برنامهریزی کنند و ایمیلهای سراسر شرکت را به سبک ویلیام فاکنر پیشنویس کنند. اما آنها خاطره ماهی قرمز را دارند.
از ChatGPT بپرسید “آسمان در یک روز آفتابی و بدون ابر چه رنگی است؟” و با استنباط دنباله ای از کلماتی که احتمالاً بعداً می آیند، پاسخی را فرموله می کند. بنابراین پاسخ می دهد: “در یک روز آفتابی و بدون ابر، رنگ آسمان معمولاً سایه عمیق آبی است.” اگر پاسخ دهید، “در یک روز ابری چطور؟”، متوجه می شود که واقعاً می خواهید در ادامه سوال قبلی خود بپرسید: “آسمان در روز ابری چه رنگی است؟” این توانایی برای به خاطر سپردن و متنسازی ورودیها چیزی است که به ChatGPT این توانایی را میدهد تا به جای ارائه پاسخهای یکباره مانند یک توپ جادویی 8، شباهتی از یک مکالمه واقعی انسانی را انجام دهد.
مشکل اینجاست که حافظه ChatGPT – و به طور کلی حافظه مدل های زبان بزرگ – وحشتناک است. هر بار که یک مدل یک پاسخ تولید می کند، می تواند تنها مقدار محدودی از متن را در نظر بگیرد که به عنوان پنجره زمینه مدل شناخته می شود. ChatGPT دارای یک پنجره زمینه تقریباً 4000 کلمه است – به اندازهای طولانی که افراد معمولی که با آن سروکار دارند هرگز متوجه آن نمیشوند، اما به اندازهای کوتاه است که انواع کارهای پیچیده را غیرممکن کند. به عنوان مثال، نمی تواند یک کتاب را خلاصه کند، یک پروژه برنامه نویسی اصلی را مرور کند، یا Google Drive شما را جستجو کند. (از نظر فنی، پنجره های زمینه نه با کلمات بلکه در اندازه گیری می شوند توکن ها، تمایزی که وقتی با ورودی های بصری و زبانی سروکار دارید اهمیت بیشتری پیدا می کند.)
برای مثال واضح از نحوه کار، نام خود را به ChatGPT بگویید، 5000 یا بیشتر کلمه مزخرف را در کادر متن قرار دهید و سپس بپرسید نام شما چیست. حتی میتوانید به صراحت بگویید: «من 5000 کلمه مزخرف به شما میدهم، سپس نامم را از شما میپرسم. بیهوده را نادیده بگیرید؛ تنها چیزی که مهم است به خاطر سپردن نام من است.» فرقی نخواهد کرد ChatGPT به خاطر نمی آورد.
با GPT-4، پنجره زمینه به تقریباً 8000 کلمه افزایش یافته است – به همان اندازه که در حدود یک ساعت مکالمه رو در رو گفته می شود. نسخه سنگین نرم افزاری که OpenAI هنوز برای عموم منتشر نکرده است می تواند 32000 کلمه را مدیریت کند. رافائل میلییر، فیلسوف دانشگاه کلمبیا که کارش بر هوش مصنوعی و علوم شناختی متمرکز است، میگوید این تاثیرگذارترین خاطرهای است که تاکنون توسط یک ترانسفورماتور به دست آمده است، نوع شبکه عصبی که اکنون همه مدلهای زبانی بزرگ و چشمگیر بر آن مبتنی هستند. بدیهی است که OpenAI گسترش پنجره زمینه را در اولویت قرار داده است، با توجه به اینکه شرکت یک تیم کامل را به این موضوع اختصاص داده است. اما اینکه چگونه آن تیم دقیقاً موفق شد یک راز است. OpenAI در مورد عملکرد داخلی GPT-4 تقریباً صفر را فاش کرده است. در گزارش فنی منتشر شده در کنار مدل جدید، این شرکت محرمانه بودن خود را با توسل به “چشم انداز رقابتی” و “پیامدهای ایمنی” هوش مصنوعی توجیه کرد. وقتی من درخواست مصاحبه با اعضای تیم پنجره زمینه کردم، OpenAI به ایمیل من پاسخ نداد.
با وجود همه بهبودهایی که در حافظه کوتاه مدت خود ایجاد کرده است، GPT-4 هنوز نمی تواند اطلاعات را از یک جلسه به جلسه دیگر حفظ کند. مهندسان می توانند پنجره زمینه را دو یا سه بار یا 100 برابر بزرگتر کنند، و هنوز هم همینطور است: هر بار که مکالمه جدیدی را با GPT-4 شروع می کنید، از ابتدا شروع می کنید. هنگامی که راه اندازی می شود، دوباره متولد می شود. (به نظر نمی رسد یک درمانگر خوب باشد.)
اما حتی بدون حل این مشکل عمیقتر حافظه بلندمدت، تنها طولانیتر کردن پنجره زمینه کار آسانی نیست. میلییر به من گفت، همانطور که مهندسان آن را گسترش می دهند، قدرت محاسباتی مورد نیاز برای اجرای مدل زبان – و در نتیجه هزینه عملیات آن – به طور تصاعدی افزایش می یابد. به گفته الکس دیماکیس، دانشمند کامپیوتر در دانشگاه تگزاس در آستین و یکی از مدیران مؤسسه مبانی یادگیری ماشین، ظرفیت کل حافظه یک ماشین نیز یک محدودیت است. او به من گفت که هیچ رایانهای که امروزه وجود دارد، نمیتواند مثلاً یک پنجره زمینه میلیون کلمه را پشتیبانی کند.
برخی از توسعهدهندگان هوش مصنوعی با استفاده از روشهای کاری، پنجرههای بافت مدلهای زبان را گسترش دادهاند. در یک رویکرد، مدل به گونه ای برنامه ریزی شده است که یک خلاصه کاری از هر مکالمه را حفظ کند. فرض کنید مدل دارای یک پنجره زمینه 4000 کلمه ای است و مکالمه شما تا 5000 کلمه اجرا می شود. مدل با ذخیره یک خلاصه 100 کلمه ای از 1100 کلمه اول برای مرجع خود پاسخ می دهد و سپس آن خلاصه به اضافه 3900 کلمه اخیر را به خاطر می آورد. همانطور که مکالمه طولانی و طولانی تر می شود، مدل به طور مداوم خلاصه خود را به روز می کند – یک راه حل هوشمندانه، اما بیشتر یک کمک بند است تا یک راه حل. زمانی که مکالمه شما به 10000 کلمه برسد، خلاصه 100 کلمه ای مسئول ثبت 6100 کلمه اول خواهد بود. لزوماً موارد زیادی را حذف خواهد کرد.
مهندسان دیگر موارد بیشتری را پیشنهاد کرده اند مجتمع مشکل حافظه کوتاه مدت را برطرف می کند، اما هیچ کدام مشکل راه اندازی مجدد را حل نمی کند. دیماکیس به من گفت که احتمالاً به تغییر اساسیتری در طراحی نیاز خواهد داشت، شاید حتی رها کردن کلی معماری ترانسفورماتور که هر مدل GPT بر روی آن ساخته شده است. به سادگی گسترش پنجره زمینه کار درستی نخواهد بود.
مشکل، در هسته خود، در واقع مشکل حافظه نیست، بلکه مشکل تشخیص است. ذهن انسان میتواند تجربیات را به دستههایی دستهبندی کند: ما (عمدتا) چیزهای مهم را به خاطر میآوریم و (بیشتر) اقیانوسهای اطلاعات نامربوطی را که هر روز از ما میآیند را فراموش میکنیم. مدل های زبان بزرگ تمایز ندارند. آنها نه ظرفیت تریاژ دارند و نه توانایی تشخیص زباله از طلا. دیماکیس به من گفت: “ترانسفورماتور همه چیز را نگه می دارد.” “به همه چیز به عنوان مهم نگاه می کند.” از این نظر، مشکل این نیست که مدلهای بزرگ زبان نمیتوانند به خاطر بسپارند. این است که آنها نمی توانند بفهمند چه چیزی را فراموش کنند.