ChatGPT یک JPEG تار از وب است

در سال 2013، کارگران یک شرکت ساختمانی آلمانی متوجه چیز عجیبی در مورد دستگاه فتوکپی زیراکس خود شدند: زمانی که آنها یک کپی از پلان یک خانه تهیه کردند، کپی آن به شکلی ظریف اما قابل توجه با اصل تفاوت داشت. در پلان طبقه اولیه، هر یک از سه اتاق خانه با یک مستطیل همراه بود که مساحت آن را مشخص می کرد: اتاق ها به ترتیب 14.13، 21.11 و 17.42 متر مربع بودند. با این حال، در فتوکپی، هر سه اتاق به اندازه 14.13 متر مربع برچسب زده شده است. این شرکت با دانشمند کامپیوتر دیوید کریزل تماس گرفت تا این نتیجه به ظاهر غیرقابل تصور را بررسی کند. آنها به یک دانشمند کامپیوتر نیاز داشتند زیرا یک دستگاه فتوکپی زیراکس مدرن از فرآیند فیزیکی زیروگرافی که در دهه 1960 رایج شده بود استفاده نمی کند. در عوض، سند را به صورت دیجیتالی اسکن می کند و سپس فایل تصویر حاصل را چاپ می کند. این را با این واقعیت ترکیب کنید که تقریباً هر فایل تصویر دیجیتال برای صرفه جویی در فضا فشرده می شود و راه حلی برای این رمز و راز شروع به ارائه می کند.

فشرده‌سازی یک فایل به دو مرحله نیاز دارد: اول، رمزگذاری، که طی آن فایل به فرمت فشرده‌تری تبدیل می‌شود، و سپس رمزگشایی، که طی آن فرآیند معکوس می‌شود. اگر فایل بازیابی شده با فایل اصلی یکسان باشد، فرآیند فشرده سازی به عنوان بدون ضرر توصیف می شود: هیچ اطلاعاتی نادیده گرفته نشده است. در مقابل، اگر فایل بازیابی شده تنها تقریبی از فایل اصلی باشد، فشرده سازی به عنوان از دست رفته توصیف می شود: برخی از اطلاعات کنار گذاشته شده اند و اکنون غیرقابل بازیابی هستند. فشرده‌سازی بدون اتلاف چیزی است که معمولاً برای فایل‌های متنی و برنامه‌های رایانه‌ای استفاده می‌شود، زیرا آن‌ها حوزه‌هایی هستند که حتی یک کاراکتر نادرست در آن‌ها پتانسیل فاجعه‌بار بودن را دارد. فشرده‌سازی با اتلاف اغلب برای عکس‌ها، صدا و ویدیو در شرایطی که دقت مطلق ضروری نیست استفاده می‌شود. اغلب اوقات، ما متوجه نمی شویم که یک عکس، آهنگ یا فیلم به طور کامل بازتولید نشده باشد. از دست دادن وفاداری تنها زمانی محسوس تر می شود که فایل ها به شدت فشرده می شوند. در این موارد، ما متوجه مواردی می‌شویم که به عنوان مصنوعات فشرده‌سازی شناخته می‌شوند: مبهم بودن کوچک‌ترین JPEG و MPEG تصاویر، یا صدای ریز MP3 های با نرخ بیت پایین.

دستگاه های فتوکپی زیراکس از فرمت فشرده سازی با اتلاف استفاده می کنند JBIG2، برای استفاده با تصاویر سیاه و سفید طراحی شده است. برای صرفه جویی در فضا، دستگاه کپی نواحی شبیه به هم را در تصویر شناسایی می کند و یک کپی را برای همه آنها ذخیره می کند. هنگامی که فایل از حالت فشرده خارج می شود، از آن کپی مکررا برای بازسازی تصویر استفاده می کند. معلوم شد که دستگاه فتوکپی برچسب‌هایی را که مساحت اتاق‌ها را مشخص می‌کنند به اندازه کافی مشابه ارزیابی کرده است که فقط یکی از آنها را ذخیره می‌کند – 14.13 – و هنگام چاپ پلان طبقه، از آن یکی برای هر سه اتاق دوباره استفاده می‌کند.

این واقعیت که دستگاه های فتوکپی زیراکس از فرمت فشرده سازی با اتلاف به جای فرمت بدون اتلاف استفاده می کنند، به خودی خود یک مشکل نیست. مشکل این است که دستگاه‌های فتوکپی به روشی ظریف تصویر را تخریب می‌کردند، که در آن آثار فشرده‌سازی بلافاصله قابل تشخیص نبودند. اگر دستگاه فتوکپی به سادگی پرینت‌های تار تولید می‌کرد، همه می‌دانستند که آن‌ها بازتولید دقیقی از نسخه‌های اصلی نیستند. آنچه منجر به مشکلات شد این واقعیت بود که دستگاه فتوکپی اعدادی را تولید می کرد که خوانا اما نادرست بودند. این باعث شد کپی ها درست به نظر برسند در حالی که دقیق نبودند. (در سال 2014، زیراکس یک پچ برای اصلاح این مشکل منتشر کرد.)

من فکر می‌کنم که امروز این حادثه با دستگاه فتوکپی زیراکس را در نظر داشته باشیم، زیرا ما ChatGPT OpenAI و سایر برنامه‌های مشابه را که محققان هوش مصنوعی آن‌ها را مدل‌های زبان بزرگ می‌نامند، در نظر می‌گیریم. شباهت بین یک دستگاه فتوکپی و یک مدل زبان بزرگ ممکن است فوراً آشکار نباشد – اما سناریوی زیر را در نظر بگیرید. تصور کنید که دسترسی خود را به اینترنت برای همیشه از دست می دهید. در مرحله آماده سازی، قصد دارید یک کپی فشرده از تمام متن موجود در وب ایجاد کنید تا بتوانید آن را در یک سرور خصوصی ذخیره کنید. متأسفانه سرور خصوصی شما تنها یک درصد از فضای مورد نیاز را دارد. اگر می خواهید همه چیز متناسب باشد، نمی توانید از الگوریتم فشرده سازی بدون تلفات استفاده کنید. در عوض، شما یک الگوریتم اتلاف می نویسید که نظم های آماری را در متن شناسایی می کند و آنها را در یک فرمت فایل تخصصی ذخیره می کند. از آنجایی که شما تقریباً قدرت محاسباتی نامحدودی برای پرتاب کردن در این کار دارید، الگوریتم شما می‌تواند نظم‌های آماری فوق‌العاده ظریف را شناسایی کند و این به شما امکان می‌دهد به نسبت تراکم مطلوب صد به یک دست یابید.

در حال حاضر، از دست دادن دسترسی به اینترنت شما چندان وحشتناک نیست. شما تمام اطلاعات موجود در وب را در سرور خود ذخیره کرده اید. تنها نکته این است که، چون متن بسیار فشرده شده است، نمی توانید با جستجوی یک نقل قول دقیق به دنبال اطلاعات بگردید. شما هرگز یک تطابق دقیق پیدا نمی کنید، زیرا کلمات آن چیزی نیستند که ذخیره می شود. برای حل این مشکل، یک رابط ایجاد می‌کنید که پرس‌و‌جوها را در قالب سؤال می‌پذیرد و با پاسخ‌هایی پاسخ می‌دهد که اصل چیزهایی را که روی سرور خود دارید نشان می‌دهد.

آنچه من توضیح دادم بسیار شبیه به ChatGPT یا بیشتر مدل های زبان بزرگ دیگر است. ChatGPT را تار در نظر بگیرید JPEG از تمام متن های موجود در وب بسیاری از اطلاعات را در وب حفظ می کند، به همان روشی که الف JPEG بسیاری از اطلاعات یک تصویر با وضوح بالاتر را حفظ می کند، اما، اگر به دنبال دنباله ای دقیق از بیت ها باشید، آن را پیدا نخواهید کرد. تنها چیزی که به دست می آورید یک تقریب است. اما، از آنجایی که تقریب در قالب متن دستوری ارائه می شود، که ChatGPT در ایجاد آن برتری دارد، معمولا قابل قبول است. شما هنوز به یک تار نگاه می کنید JPEG، اما تاری به گونه ای رخ می دهد که تصویر را به طور کلی کمتر واضح نشان نمی دهد.

این تشبیه به فشرده سازی با اتلاف تنها راهی برای درک امکانات ChatGPT در بسته بندی مجدد اطلاعات موجود در وب با استفاده از کلمات مختلف نیست. همچنین راهی برای درک «توهمات» یا پاسخ‌های بی‌معنی به سؤالات واقعی است که مدل‌های زبان بزرگ مانند ChatGPT همگی مستعد آن هستند. این توهمات مصنوعات فشرده سازی هستند، اما – مانند برچسب های نادرست تولید شده توسط دستگاه فتوکپی زیراکس – به اندازه کافی قابل قبول هستند که شناسایی آنها مستلزم مقایسه آنها با نمونه های اصلی است، که در این مورد به معنای وب یا دانش خود ما از جهان است. وقتی اینگونه در مورد آنها فکر می کنیم، چنین توهماتی غیر از تعجب است. اگر یک الگوریتم فشرده‌سازی برای بازسازی متن پس از حذف نود و نه درصد متن اصلی طراحی شده باشد، باید انتظار داشته باشیم که بخش‌های قابل توجهی از آنچه تولید می‌کند کاملاً ساخته شود.

این تشبیه زمانی که به یاد می‌آوریم که تکنیک رایجی که توسط الگوریتم‌های فشرده‌سازی با اتلاف استفاده می‌شود، درون یابی است، یعنی تخمین چیزی که از دست رفته با نگاه کردن به آنچه در دو طرف شکاف وجود دارد، بیشتر معنا پیدا می‌کند. هنگامی که یک برنامه تصویری در حال نمایش یک عکس است و باید پیکسلی را که در طی فرآیند فشرده سازی از بین رفته است بازسازی کند، به پیکسل های نزدیک نگاه می کند و میانگین را محاسبه می کند. این همان کاری است که ChatGPT وقتی از او خواسته می‌شود که مثلاً گم شدن یک جوراب در خشک‌کن را با استفاده از سبک اعلامیه استقلال توصیف کند، انجام می‌دهد: گرفتن دو نقطه در “فضای واژگانی” و ایجاد متنی که مکان بین آنها را اشغال کند. («زمانی که در جریان رویدادهای انسانی، برای حفظ پاکیزگی و نظم آن، لازم است که فرد لباس‌های خود را از همسرش جدا کند…) سرگرم کننده است: آنها به جای عکس، یک ابزار “تار” برای پاراگراف ها کشف کرده اند و از بازی کردن با آن لذت می برند.

با توجه به اینکه مدل های زبان بزرگ مانند ChatGPT اغلب به عنوان لبه برش هوش مصنوعی ستایش می شوند، ممکن است توصیف آن ها به عنوان الگوریتم های فشرده سازی متن با اتلاف، نادیده انگاشته شود – یا دست کم تضعیف کننده. من فکر می‌کنم که این دیدگاه اصلاحی مفید برای تمایل به انسان‌سازی مدل‌های زبانی بزرگ ارائه می‌کند، اما جنبه دیگری در قیاس فشرده‌سازی وجود دارد که ارزش بررسی دارد. از سال 2006، یک محقق هوش مصنوعی به نام مارکوس هاتر به هر کسی که بتواند یک عکس فوری یک گیگابایتی خاص از ویکی‌پدیا را کوچک‌تر از برنده قبلی، بدون ضرر فشرده کند، جایزه نقدی – معروف به جایزه فشرده‌سازی دانش انسانی یا جایزه هاتر – ارائه کرده است. انجام داد. احتمالاً با فایل هایی که با فرمت فایل فشرده فشرده شده اند مواجه شده اید. فرمت zip فایل یک گیگابایتی Hutter را به حدود سیصد مگابایت کاهش می دهد. آخرین برنده جایزه توانسته است آن را به صد و پانزده مگابایت کاهش دهد. این فقط یک تمرین در کوبیدن نیست. هاتر معتقد است که فشرده‌سازی بهتر متن در ایجاد هوش مصنوعی در سطح انسان مؤثر خواهد بود، تا حدی به این دلیل که با درک متن می‌توان به بیشترین درجه فشرده‌سازی دست یافت.

برای درک رابطه پیشنهادی بین فشرده سازی و درک، تصور کنید که یک فایل متنی حاوی میلیون ها مثال از جمع، تفریق، ضرب و تقسیم دارید. اگرچه هر الگوریتم فشرده‌سازی می‌تواند حجم این فایل را کاهش دهد، اما راه دستیابی به بیشترین نسبت فشرده‌سازی احتمالاً استخراج اصول حساب و سپس نوشتن کد یک برنامه ماشین حساب است. با استفاده از یک ماشین حساب، می‌توانید نه تنها میلیون‌ها مثال موجود در فایل، بلکه هر نمونه دیگری از محاسباتی را که ممکن است در آینده با آن مواجه شوید، کاملاً بازسازی کنید. همین منطق در مورد مشکل فشرده سازی یک برش از ویکی پدیا نیز صدق می کند. اگر یک برنامه فشرده‌سازی بداند که نیرو برابر است با جرم ضربدر شتاب، می‌تواند هنگام فشرده‌سازی صفحات مربوط به فیزیک، کلمات زیادی را کنار بگذارد، زیرا قادر به بازسازی آنها خواهد بود. به همین ترتیب، هرچه برنامه اطلاعات بیشتری در مورد عرضه و تقاضا داشته باشد، می تواند کلمات بیشتری را هنگام فشرده سازی صفحات مربوط به اقتصاد و غیره کنار بگذارد.

مدل های زبان بزرگ، نظم های آماری را در متن شناسایی می کنند. هر گونه تجزیه و تحلیل از متن وب نشان می دهد که عباراتی مانند “عرضه کم است” اغلب در مجاورت عباراتی مانند “افزایش قیمت ها” ظاهر می شوند. یک ربات چت که این همبستگی را در بر می گیرد، ممکن است وقتی سوالی در مورد تأثیر کمبود عرضه پرسیده شود، با پاسخی در مورد افزایش قیمت ها پاسخ دهد. اگر یک مدل زبان بزرگ تعداد زیادی از همبستگی‌ها را بین اصطلاحات اقتصادی جمع‌آوری کرده باشد – آنقدر زیاد که می‌تواند پاسخ‌های قابل قبولی را به سؤالات مختلف ارائه دهد – آیا باید بگوییم که واقعاً نظریه اقتصادی را درک می‌کند؟ مدل‌هایی مانند ChatGPT به دلایل مختلفی واجد شرایط دریافت جایزه Hutter نیستند، یکی از آنها این است که متن اصلی را دقیقا بازسازی نمی‌کنند—یعنی فشرده‌سازی بدون تلفات را انجام نمی‌دهند. اما آیا این امکان وجود دارد که فشرده سازی با اتلاف آنها نشان دهنده درک واقعی از نوعی باشد که محققان هوش مصنوعی به آن علاقه مند هستند؟

به مثال حساب بازگردیم. اگر از GPT-3 (مدل زبان بزرگی که ChatGPT از آن ساخته شده است) بخواهید یک جفت اعداد را اضافه یا کم کند، تقریباً همیشه وقتی اعداد فقط دو رقمی داشته باشند، پاسخ صحیح را می دهد. اما دقت آن با اعداد بزرگتر به طور قابل توجهی بدتر می شود و زمانی که اعداد پنج رقمی هستند به ده درصد کاهش می یابد. بیشتر پاسخ‌های صحیحی که GPT-3 می‌دهد در وب یافت نمی‌شوند—مثلاً صفحات وب زیادی که حاوی متن «245 + 821» باشند وجود ندارد—بنابراین درگیر حفظ ساده نیست. اما علیرغم دریافت حجم وسیعی از اطلاعات، قادر به استخراج اصول حساب نیز نبوده است. بررسی دقیق پاسخ‌های نادرست GPT-3 نشان می‌دهد که هنگام انجام محاسبات، «1» را ندارد. وب قطعا حاوی توضیحاتی در مورد حمل “1” است، اما GPT-3 قادر به ترکیب این توضیحات نیست. تجزیه و تحلیل آماری GPT-3 از مثال‌های محاسباتی، آن را قادر می‌سازد تا یک تقریب سطحی از چیز واقعی ایجاد کند، اما نه بیشتر از آن.

با توجه به شکست GPT-3 در موضوعی که در مدرسه ابتدایی تدریس می‌شود، چگونه می‌توانیم این واقعیت را توضیح دهیم که گاهی اوقات به نظر می‌رسد در نوشتن مقالات در سطح دانشگاه عملکرد خوبی دارد؟ اگرچه مدل‌های بزرگ زبان اغلب توهم دارند، اما وقتی شفاف هستند به نظر می‌رسد که واقعاً موضوعاتی مانند نظریه اقتصادی را درک می‌کنند. شاید محاسبات یک مورد خاص باشد که مدل های زبان بزرگ برای آن مناسب نیستند. آیا این امکان وجود دارد که در مناطقی خارج از جمع و تفریق، قانونمندی های آماری در متن وجود داشته باشد؟ انجام دادن با دانش واقعی دنیای واقعی مطابقت دارد؟