زیر کاپوت
در هسته ChatGPT یک شبکه عصبی عمیق وجود دارد: یک تابع پیچیده ریاضی – یا قانون – که ورودی ها را به خروجی ها نگاشت می کند. ورودی ها و خروجی ها باید اعداد باشند. از آنجایی که ChatGPT-4 با کلمات کار میکند، اینها باید به اعداد ترجمه شوند تا شبکه عصبی با آنها کار کند.
ترجمه توسط یک برنامه کامپیوتری به نام توکنایزر انجام می شود که فهرست عظیمی از کلمات و دنباله حروف به نام “tokens” را نگهداری می کند. این نشانه ها با اعداد شناسایی می شوند. کلمه ای مانند “دوست” دارای شناسه توکن 6756 است، بنابراین کلمه ای مانند “دوستی” به نشانه های “دوست” و “کشتی” تقسیم می شود. اینها به عنوان شناسه های 6756 و 6729 نشان داده می شوند.
وقتی کاربر سوالی را وارد می کند، قبل از اینکه ChatGPT-4 حتی شروع به پردازش درخواست کند، کلمات به اعداد تبدیل می شوند. شبکه عصبی عمیق به کلمات به عنوان متن دسترسی ندارد، بنابراین نمی تواند واقعاً در مورد حروف استدلال کند.
تکلیف شعر
ChatGPT-4 در کار با حروف اول کلمات خوب است. از آن خواستم شعری بنویسد که در آن حرف آغازین هر سطر عبارت «من عاشق روباتها هستم» باشد. پاسخ آن به طرز شگفت آوری خوب بود. در اینجا چهار خط اول آمده است:
من طرفدار دنده و فولاد هستم
عاشق حرکات آنها، بسیار سورئال،
بر روی مدارها، آنها به سرعت حکومت می کنند
برای کسب دانش رقابت می کنند، آنها احمقی نیستند،
داده های آموزشی برای ChatGPT-4 شامل تعداد زیادی کتاب درسی است که اغلب شامل شاخص های حروف الفبا است. این می توانست برای GPT-4 کافی باشد تا ارتباط بین کلمات و حروف اول آنها را بیاموزد.
به نظر میرسد که توکنیزر برای شناسایی درخواستهایی مانند این اصلاح شده است و به نظر میرسد زمانی که کاربران درخواست خود را وارد میکنند، عبارتی مانند “I Love Robots” را به توکنهای جداگانه تقسیم میکند. با این حال، ChatGPT-4 قادر به رسیدگی به درخواستها برای کار با آخرین حروف کلمات نبود.
ChatGPT-4 همچنین در palindromes بد است. در پاسخ به این سوال که یک عبارت پالیندروم در مورد یک ربات تولید کند، “روبات soot، orba” را پیشنهاد کرد که با تعریف پالیندروم مطابقت ندارد و بر کلمات مبهم متکی است.
با این حال، LLM ها در تولید برنامه های کامپیوتری دیگر نسبتا خوب هستند. این به این دلیل است که داده های آموزشی آنها شامل بسیاری از وب سایت های اختصاص داده شده به برنامه نویسی است. از ChatGPT-4 خواستم تا برنامه ای برای شناسایی حروف گمشده در Wordle بنویسد.
برنامه اولیه ای که ChatGPT-4 تولید کرد دارای یک اشکال بود. وقتی به آن اشاره کردم این را اصلاح کرد. وقتی برنامه را اجرا کردم، 48 کلمه معتبر مطابق با الگوی “#E#L#” پیدا کرد، از جمله “می گوید”، “سلول ها” و “سلام”. زمانی که من قبلاً مستقیماً از GPT-4 خواسته بودم که منطبقاتی را برای این الگو پیشنهاد کند، فقط یکی را پیدا کرده بود.
اصلاحات آینده
ممکن است تعجب آور به نظر برسد که یک مدل زبان بزرگ مانند ChatGPT-4 برای حل معماهای ساده کلمه یا فرموله کردن پالیندروم ها مشکل داشته باشد، زیرا داده های آموزشی تقریباً همه کلمات موجود را شامل می شود.
با این حال، این به این دلیل است که همه ورودیهای متن باید به صورت اعداد رمزگذاری شوند و فرآیندی که این کار را انجام میدهد ساختار حروف درون کلمات را نشان نمیدهد. از آنجایی که شبکه های عصبی صرفاً با اعداد کار می کنند، نیاز به رمزگذاری کلمات به عنوان اعداد تغییر نخواهد کرد.
دو راه وجود دارد که LLM های آینده می توانند بر این مشکل غلبه کنند. اول، ChatGPT-4 حرف اول هر کلمه را میداند، بنابراین دادههای آموزشی آن را میتوان برای گنجاندن نقشهبرداری از موقعیت هر حرف در هر کلمه در فرهنگ لغت خود افزود.
راه حل دوم هیجان انگیزتر و کلی تر است. همانطور که نشان دادم، LLMهای آینده می توانند برای حل مشکلاتی مانند این کد ایجاد کنند. مقالهای اخیر ایدهای به نام Toolformer را نشان میدهد که در آن یک LLM از ابزارهای خارجی برای انجام وظایفی که معمولاً با مشکل مواجه هستند، مانند محاسبات حسابی، استفاده میکند.
ما در روزهای اولیه این فناوری ها هستیم و بینش هایی مانند این در مورد محدودیت های فعلی می تواند به فناوری های هوش مصنوعی حتی چشمگیرتری منجر شود.
این مقاله از The Conversation تحت مجوز Creative Commons بازنشر شده است. مقاله اصلی را بخوانید.
مایکل جی. مدن برای هیچ شرکت یا سازمانی که از این مقاله منتفع میشود کار نمیکند، مشورت نمیکند، سهام آن را ندارد یا از آن کمک مالی دریافت نمیکند، و هیچ وابستگی مرتبطی را فراتر از انتصاب دانشگاهی خود فاش نکرده است.