در سال 2013، کارگران یک شرکت ساختمانی آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که آنها یک کپی از پلان یک خانه تهیه کردند، کپی آن به شکلی ظریف اما قابل توجه با اصل تفاوت داشت. در پلان طبقه اولیه، هر یک از سه اتاق خانه با یک مستطیل همراه بود که مساحت آن را مشخص می کرد: اتاق ها به ترتیب 14.13، 21.11 و 17.42 متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه 14.13 متر مربع برچسب زده شده است. این شرکت با دانشمند کامپیوتر دیوید کریزل تماس گرفت تا این نتیجه به ظاهر غیرقابل تصور را بررسی کند. آنها به یک دانشمند کامپیوتر نیاز داشتند زیرا یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی که در دهه 1960 رایج شده بود استفاده نمی کند. در عوض، سند را به صورت دیجیتالی اسکن می کند و سپس فایل تصویر حاصل را چاپ می کند. این را با این واقعیت ترکیب کنید که تقریباً هر فایل تصویر دیجیتال برای صرفه جویی در فضا فشرده می شود و راه حلی برای این رمز و راز شروع به ارائه می کند.
فشردهسازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشردهتری تبدیل میشود، و سپس رمزگشایی، که طی آن فرآیند معکوس میشود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان بدون ضرر توصیف می شود: هیچ اطلاعاتی نادیده گرفته نشده است. در مقابل، اگر فایل بازیابی شده تنها تقریبی از فایل اصلی باشد، فشرده سازی به عنوان از دست رفته توصیف می شود: برخی از اطلاعات کنار گذاشته شده اند و اکنون غیرقابل بازیابی هستند. فشردهسازی بدون اتلاف چیزی است که معمولاً برای فایلهای متنی و برنامههای رایانهای استفاده میشود، زیرا آنها حوزههایی هستند که حتی یک کاراکتر نادرست در آنها پتانسیل فاجعهبار بودن را دارد. فشردهسازی با اتلاف اغلب برای عکسها، صدا و ویدیو در شرایطی که دقت مطلق ضروری نیست استفاده میشود. اغلب اوقات، ما متوجه نمی شویم که یک عکس، آهنگ یا فیلم به طور کامل بازتولید نشده باشد. از دست دادن وفاداری تنها زمانی محسوس تر می شود که فایل ها به شدت فشرده می شوند. در این موارد، ما متوجه مواردی میشویم که به عنوان مصنوعات فشردهسازی شناخته میشوند: مبهم بودن کوچکترین JPEG و MPEG تصاویر، یا صدای ریز MP3 های با نرخ بیت پایین.
دستگاه های فتوکپی زیراکس از فرمت فشرده سازی با اتلاف استفاده می کنند JBIG2، برای استفاده با تصاویر سیاه و سفید طراحی شده است. برای صرفه جویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی می کند و یک کپی را برای همه آنها ذخیره می کند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی مکررا برای بازسازی تصویر استفاده می کند. معلوم شد که دستگاه فتوکپی برچسبهایی را که مساحت اتاقها را مشخص میکنند به اندازه کافی مشابه ارزیابی کرده است که فقط یکی از آنها را ذخیره میکند – 14.13 – و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق دوباره استفاده میکند.
این واقعیت که دستگاه های فتوکپی زیراکس از فرمت فشرده سازی با اتلاف به جای فرمت بدون اتلاف استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاههای فتوکپی به روشی ظریف تصویر را تخریب میکردند، که در آن آثار فشردهسازی بلافاصله قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینتهای تار تولید میکرد، همه میدانستند که آنها بازتولید دقیقی از نسخههای اصلی نیستند. آنچه منجر به مشکلات شد این واقعیت بود که دستگاه فتوکپی اعدادی را تولید می کرد که خوانا اما نادرست بودند. این باعث شد کپی ها درست به نظر برسند در حالی که دقیق نبودند. (در سال 2014، زیراکس یک پچ برای اصلاح این مشکل منتشر کرد.)
من فکر میکنم که امروز این حادثه با دستگاه فتوکپی زیراکس را در نظر داشته باشیم، زیرا ما ChatGPT OpenAI و سایر برنامههای مشابه را که محققان هوش مصنوعی آنها را مدلهای زبان بزرگ مینامند، در نظر میگیریم. شباهت بین یک دستگاه فتوکپی و یک مدل زبان بزرگ ممکن است فوراً آشکار نباشد – اما سناریوی زیر را در نظر بگیرید. تصور کنید که دسترسی خود را به اینترنت برای همیشه از دست می دهید. در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید. متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز متناسب باشد، نمی توانید از الگوریتم فشرده سازی بدون تلفات استفاده کنید. در عوض، شما یک الگوریتم اتلاف می نویسید که نظم های آماری را در متن شناسایی می کند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. از آنجایی که شما تقریباً قدرت محاسباتی نامحدودی برای پرتاب کردن در این کار دارید، الگوریتم شما میتواند نظمهای آماری فوقالعاده ظریف را شناسایی کند و این به شما امکان میدهد به نسبت تراکم مطلوب صد به یک دست یابید.
در حال حاضر، از دست دادن دسترسی به اینترنت شما چندان وحشتناک نیست. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده اید. تنها نکته این است که، چون متن بسیار فشرده شده است، نمی توانید با جستجوی یک نقل قول دقیق به دنبال اطلاعات بگردید. شما هرگز یک تطابق دقیق پیدا نمی کنید، زیرا کلمات آن چیزی نیستند که ذخیره می شود. برای حل این مشکل، یک رابط ایجاد میکنید که پرسوجوها را در قالب سؤال میپذیرد و با پاسخهایی پاسخ میدهد که اصل چیزهایی را که روی سرور خود دارید نشان میدهد.
آنچه من توضیح دادم بسیار شبیه به ChatGPT یا بیشتر مدل های زبان بزرگ دیگر است. ChatGPT را تار در نظر بگیرید JPEG از تمام متن های موجود در وب بسیاری از اطلاعات را در وب حفظ می کند، به همان روشی که الف JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال دنباله ای دقیق از بیت ها باشید، آن را پیدا نخواهید کرد. تنها چیزی که به دست می آورید یک تقریب است. اما، از آنجایی که تقریب در قالب متن دستوری ارائه می شود، که ChatGPT در ایجاد آن برتری دارد، معمولا قابل قبول است. شما هنوز به یک تار نگاه می کنید JPEG، اما تاری به گونه ای رخ می دهد که تصویر را به طور کلی کمتر واضح نشان نمی دهد.
این تشبیه به فشرده سازی با اتلاف تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. همچنین راهی برای درک «توهمات» یا پاسخهای بیمعنی به سؤالات واقعی است که مدلهای زبان بزرگ مانند ChatGPT همگی مستعد آن هستند. این توهمات مصنوعات فشرده سازی هستند، اما – مانند برچسب های نادرست تولید شده توسط دستگاه فتوکپی زیراکس – به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونه های اصلی است، که در این مورد به معنای وب یا دانش خود ما از جهان است. وقتی اینگونه در مورد آنها فکر می کنیم، چنین توهماتی غیر از تعجب است. اگر یک الگوریتم فشردهسازی برای بازسازی متن پس از حذف نود و نه درصد متن اصلی طراحی شده باشد، باید انتظار داشته باشیم که بخشهای قابل توجهی از آنچه تولید میکند کاملاً ساخته شود.
این تشبیه زمانی که به یاد میآوریم که تکنیک رایجی که توسط الگوریتمهای فشردهسازی با اتلاف استفاده میشود، درون یابی است، یعنی تخمین چیزی که از دست رفته با نگاه کردن به آنچه در دو طرف شکاف وجود دارد، بیشتر معنا پیدا میکند. هنگامی که یک برنامه تصویری در حال نمایش یک عکس است و باید پیکسلی را که در طی فرآیند فشرده سازی از بین رفته است بازسازی کند، به پیکسل های نزدیک نگاه می کند و میانگین را محاسبه می کند. این همان کاری است که ChatGPT وقتی از او خواسته میشود که مثلاً گم شدن یک جوراب در خشککن را با استفاده از سبک اعلامیه استقلال توصیف کند، انجام میدهد: گرفتن دو نقطه در “فضای واژگانی” و ایجاد متنی که مکان بین آنها را اشغال کند. («زمانی که در جریان رویدادهای انسانی، برای حفظ پاکیزگی و نظم آن، لازم است که فرد لباسهای خود را از همسرش جدا کند…) سرگرم کننده است: آنها به جای عکس، یک ابزار “تار” برای پاراگراف ها کشف کرده اند و از بازی کردن با آن لذت می برند.
با توجه به اینکه مدل های زبان بزرگ مانند ChatGPT اغلب به عنوان لبه برش هوش مصنوعی ستایش می شوند، ممکن است توصیف آن ها به عنوان الگوریتم های فشرده سازی متن با اتلاف، نادیده انگاشته شود – یا دست کم تضعیف کننده. من فکر میکنم که این دیدگاه اصلاحی مفید برای تمایل به انسانسازی مدلهای زبانی بزرگ ارائه میکند، اما جنبه دیگری در قیاس فشردهسازی وجود دارد که ارزش بررسی دارد. از سال 2006، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکیپدیا را کوچکتر از برنده قبلی، بدون ضرر فشرده کند، جایزه نقدی – معروف به جایزه فشردهسازی دانش انسانی یا جایزه هاتر – ارائه کرده است. انجام داد. احتمالاً با فایل هایی که با فرمت فایل فشرده فشرده شده اند مواجه شده اید. فرمت zip فایل یک گیگابایتی Hutter را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین در کوبیدن نیست. هاتر معتقد است که فشردهسازی بهتر متن در ایجاد هوش مصنوعی در سطح انسان مؤثر خواهد بود، تا حدی به این دلیل که با درک متن میتوان به بیشترین درجه فشردهسازی دست یافت.
برای درک رابطه پیشنهادی بین فشرده سازی و درک، تصور کنید که یک فایل متنی حاوی میلیون ها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشردهسازی میتواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشردهسازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، میتوانید نه تنها میلیونها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشردهسازی بداند که نیرو برابر است با جرم ضربدر شتاب، میتواند هنگام فشردهسازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود. به همین ترتیب، هرچه برنامه اطلاعات بیشتری در مورد عرضه و تقاضا داشته باشد، می تواند کلمات بیشتری را هنگام فشرده سازی صفحات مربوط به اقتصاد و غیره کنار بگذارد.
مدل های زبان بزرگ، نظم های آماری را در متن شناسایی می کنند. هر گونه تجزیه و تحلیل از متن وب نشان می دهد که عباراتی مانند “عرضه کم است” اغلب در مجاورت عباراتی مانند “افزایش قیمت ها” ظاهر می شوند. یک ربات چت که این همبستگی را در بر می گیرد، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، با پاسخی در مورد افزایش قیمت ها پاسخ دهد. اگر یک مدل زبان بزرگ تعداد زیادی از همبستگیها را بین اصطلاحات اقتصادی جمعآوری کرده باشد – آنقدر زیاد که میتواند پاسخهای قابل قبولی را به سؤالات مختلف ارائه دهد – آیا باید بگوییم که واقعاً نظریه اقتصادی را درک میکند؟ مدلهایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمیکنند—یعنی فشردهسازی بدون تلفات را انجام نمیدهند. اما آیا این امکان وجود دارد که فشرده سازی با اتلاف آنها نشان دهنده درک واقعی از نوعی باشد که محققان هوش مصنوعی به آن علاقه مند هستند؟
به مثال حساب بازگردیم. اگر از GPT-3 (مدل زبان بزرگی که ChatGPT از آن ساخته شده است) بخواهید یک جفت اعداد را اضافه یا کم کند، تقریباً همیشه وقتی اعداد فقط دو رقمی داشته باشند، پاسخ صحیح را می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر می شود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخهای صحیحی که GPT-3 میدهد در وب یافت نمیشوند—مثلاً صفحات وب زیادی که حاوی متن «245 + 821» باشند وجود ندارد—بنابراین درگیر حفظ ساده نیست. اما علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب نیز نبوده است. بررسی دقیق پاسخهای نادرست GPT-3 نشان میدهد که هنگام انجام محاسبات، «1» را ندارد. وب قطعا حاوی توضیحاتی در مورد حمل “1” است، اما GPT-3 قادر به ترکیب این توضیحات نیست. تجزیه و تحلیل آماری GPT-3 از مثالهای محاسباتی، آن را قادر میسازد تا یک تقریب سطحی از چیز واقعی ایجاد کند، اما نه بیشتر از آن.
با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس میشود، چگونه میتوانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر میرسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدلهای بزرگ زبان اغلب توهم دارند، اما وقتی شفاف هستند به نظر میرسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک میکنند. شاید محاسبات یک مورد خاص باشد که مدل های زبان بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در مناطقی خارج از جمع و تفریق، قانونمندی های آماری در متن وجود داشته باشد؟ انجام دادن با دانش واقعی دنیای واقعی مطابقت دارد؟