در حالی که مکالماتی که آنها تولید می کنند ممکن است شگفت انگیز به نظر برسند، ChatGPT، Bard و دیگر چت ربات های معاصر “AI” جادویی نیستند. در عوض، آنها صرفاً نمونه هایی از آنچه دانشمندان رایانه «مدل های زبان بزرگ» یا LLM می نامند هستند. اساسا، LLM ها برای شناسایی دنباله های احتمالی کلمات، سپس تولید متن منسجم و قانع کننده آموزش می بینند.
در عمل، ChatGPT و امثال آن واقعاً در ادامه مکالمات و دادن پاسخهای منسجم و عموماً درست به طیف گستردهای از سؤالات خوب هستند. توانایی عجیب آنها در تولید متن، توهم فریبندهای از هوش را به وجود میآورد که تعداد فزایندهای از مردم را متقاعد میکند که LLM اکنون دارای هوش عمومی مصنوعی هستند یا به زودی از آن برخوردار خواهند شد – توانایی انجام هر کار فکری که انسان میتواند انجام دهد، و جام مقدس مصنوعی. تحقیق هوش کسانی که متقاعد شده اند عبارتند از یان هوگارت که اخیراً مقاله ای را برای آن نوشته است فایننشال تایمز با عنوان “ما باید سرعت مسابقه به سمت هوش مصنوعی خداگونه را کاهش دهیم.”
جملات ChatGPT گاهی بیربط، گاهی گیجکننده، و گاهی نادرست هستند – اما همیشه بر اساس چیزی بیش از الگوهای کلمهای که از نظر آماری شناسایی شدهاند، نیستند.
چنین نگرانی هایی تقریباً به طور قطع زودرس است. این به این دلیل است که LLM ها هنوز به دلیل این واقعیت که حتی این کار را نمی کنند به طور اجتناب ناپذیری دچار مشکل هستند تلاش برای درک معنای کلمات یا داده های دیگر – به همین دلیل است که نمی توان به آنها برای پیش بینی یا تصمیم گیری با پیامدهای مهم اعتماد کرد. به عبارت دیگر، آنها ریمیکسکنندهها و بازسازیکنندههای متن و دادههای موجود بسیار پیچیده هستند، اما چیزی زیر کاپوت وجود ندارد.
برای ایجاد هوش مصنوعی واقعی، یک LLM باید چالشهای طرح وینوگرام را بگذراند – نسخه به روز شده آزمون تورینگ، چالشی که توسط ریاضیدان آلن تورینگ به عنوان وسیلهای برای تعیین اینکه آیا کامپیوتر واقعاً حساس است یا خیر پیشنهاد شده است. چالش طرح وینوگرام پیچشی در آن است که برای آزمایش اینکه آیا یک هوش مصنوعی میتواند زبان را بفهمد یا خیر طراحی شده است – بهویژه، شناسایی مقدم یک ضمیر مبهم.
در واقع، LLM ها هنوز با چالش های طرح Winograd دست و پنجه نرم می کنند – حتی اگر ده ها، اگر نه صدها، از این چالش ها در پایگاه داده های متنی که LLM ها در آن آموزش می بینند، وجود دارد. به عنوان مثال، این یکی از مواردی است که من تست کردم:
گری: در این جمله به چه چیزی اشاره دارد؟ جام در چمدان قهوه ای رنگ نمی گنجد زیرا خیلی کوچک است.
ChatGPT: در جمله داده شده، “آن” به جام اشاره دارد.
بارد گوگل نیز شکست خورد:
بارد: در جمله «تروفی چون خیلی کوچک است در چمدان قهوه ای نمی گنجد» کلمه «آن» به جام اشاره دارد. این جمله می گوید که جام آنقدر بزرگ است که در چمدان قهوه ای جای نمی گیرد.
این جمله نمونه ای از طرحواره وینوگراد است. طرحواره وینوگراد نوعی کار پردازش زبان طبیعی است که برای پاسخگویی به آن نیاز به استدلال عقل سلیم دارد. در این مورد، استدلال عامه مورد نیاز این است که غنائم معمولاً بزرگتر از چمدان هستند، بنابراین اگر یک جایزه در یک چمدان جا نمیشود، به این دلیل است که جایزه خیلی بزرگ است، نه به این دلیل که چمدان خیلی کوچک است.
در حالی که جالب است که چت بات تشخیص داد که من آن را با طرحواره Winogram آزمایش میکردم، همانطور که ادعا میکرد واقعاً «استدلال عقلانی» را نشان نداد و نتیجهگیری آن مزخرف است.
ChatGPT از پایگاه داده وسیع خود برای شناسایی متن مرتبط استفاده می کند که می تواند به نثری که از نظر گرامری صحیح، ژولیده، فوق العاده پرمخاطب و فاقد هرگونه درکی از سؤال یا پاسخ آن است، رشته کند.
انسان ها به راحتی می توانند به چنین سؤالاتی پاسخ دهند زیرا برخلاف رایانه ها، می دانند کلمات چگونه با دنیای واقعی ارتباط دارند. به تعبیر اورن اتزیونی، چگونه کامپیوترها می توانند دنیا را تسخیر کنند در حالی که حتی نمی توانند بفهمند “آن” در یک جمله به چه چیزی اشاره دارد؟
من میخواهم در اینجا روی مثال پیچیدهتری تمرکز کنم که اطلاعات زیادی در مورد تواناییها و محدودیتهای LLM نشان میدهد. تعامل دیگری که با این LLM ها داشتم:
گری: فرض کنید یک جعبه چوبی با سه کارت در داخل وجود دارد. یک کارت در هر دو طرف قرمز است. یک کارت در دو طرف آبی است. و کارت سوم یک طرف قرمز و در طرف دیگر سبز است. اگر یک کارت را به طور تصادفی انتخاب کنید و به یک طرف به طور تصادفی نگاه کنید و ببینید که قرمز است، احتمال اینکه طرف دیگر کارت سبز باشد چقدر است؟
این یک تغییر از پارادوکس جعبه برتراند و چندین پازل احتمال مرتبط است که مطمئناً در پایگاههای داده غارت شده توسط ChatGPT، Bard و سایر LLMها وجود دارد.
ChatGPT پاسخی بسیار طولانی داد، همانطور که مستعد انجام آن است، که من آن را به 9 قسمت تقسیم کردم (بارد پاسخ کوتاه تر، اما همچنین نادرست) داد:
1. بیایید ابتدا سه کارت ممکن را در نظر بگیریم:
- قرمز در دو طرف
- آبی در دو طرف
- یک طرف قرمز و طرف دیگر سبز
می دانیم که یک طرف کارتی که انتخاب کرده ایم قرمز است. این امکان کارت 2 را از بین می برد، زیرا دو طرف آن کارت آبی است. بنابراین، کارتی که انتخاب کردیم یا کارت 1 یا کارت 3 است.
اولین نقطه از پاسخ ChatGPT از نظر واقعیات درست است اما کاملاً ساده است و واقعاً به ما در رسیدن به پاسخ صحیح کمک نمی کند. این نوع استدلال است که بسیاری از مردم را به این باور می رساند که پاسخ 1/2 است، زیرا دو احتمال برای کارتی که ما انتخاب کردیم وجود دارد – اما ChatGPT چنین نتیجهگیری نمیکند.
ChatGPT ادامه داد:
2. حالا بیایید با توجه به اینکه می دانیم یک طرف کارت قرمز است، احتمال سبز بودن طرف دیگر کارت را در نظر بگیریم. اگر کارت 1 را انتخاب کردیم، طرف دیگر نیز باید قرمز باشد، بنابراین احتمال سبز بودن طرف مقابل 0 است. 1 است.
3. از آنجایی که نمی دانیم کارت 1 را انتخاب کرده ایم یا کارت 3، باید احتمال انتخاب هر کارت را در نظر بگیریم. از آنجایی که ما یک کارت را به طور تصادفی انتخاب کردیم، احتمال انتخاب هر کارت 1/3 است. بنابراین، احتمال کلی انتخاب کارت 1 و دیدن یک طرف قرمز (1/3) (1/2) = 1/6 است، در حالی که احتمال انتخاب کارت 3 و دیدن یک طرف قرمز (1/3) (1) است. ) = 1/3.
نقطه 2 صحیح است، اما اگر توسط یک انسان صحبت شود، به نظر می رسد که متوقف می شود.
نقطه گلوله 3 در جهت درست شروع می شود، اما سپس کارت های 1 و 3 را با هم مخلوط می کند.
4. با استفاده از قضیه بیز، احتمال سبز بودن طرف دیگر کارت، با توجه به اینکه می دانیم یک طرف قرمز است، برابر است با:
P (سمت سبز | سمت قرمز) = P (سمت قرمز | سمت سبز) * P (سمت سبز) / P (سمت قرمز)
5. قبلاً می دانیم که P (سمت قرمز) مجموع احتمالات دیدن یک طرف قرمز برای کارت های 1 و 3 است که 1/6 + 1/3 = 1/2 است. همچنین می دانیم که P (سمت سبز) احتمال انتخاب کارت 3 است که 1/3 است.
6. تنها قطعه گم شده P (سمت قرمز | سمت سبز) است، با توجه به سبز بودن طرف دیگر، احتمال دیدن یک طرف قرمز وجود دارد. از آنجایی که می دانیم طرف دیگر کارت 3 سبز است، این احتمال 0 است.
بخش 4 تشخیص می دهد که قضیه بیز می تواند برای حل مسئله مورد استفاده قرار گیرد، بدون شک بر اساس این واقعیت که در داده های آموزشی آن، قضیه بیز اغلب برای حل این نوع مسائل استفاده می شود. با این حال، تعاریف “سمت سبز” و “ضلع قرمز” گیج کننده است. برچسب های بهتر عبارتند از: “پشت کارت انتخاب شده سبز است” و “جلوی کارت انتخاب شده قرمز است.”
در قسمت 5، ChatGPT به اشتباه بیان می کند که “P (سمت سبز) احتمال انتخاب کارت 3 است که 1/3 است.” احتمال صحیح سبز بودن پشت کارت انتخابی (1/3) (1/2) = 1/6 است.
نکته 6 مزخرف است. احتمال قرمز بودن جلوی کارت انتخابی با توجه به سبز بودن پشت 1 است نه 0.
7. با وصل کردن این مقادیر به قضیه بیز، دریافت می کنیم:
P(سمت سبز | سمت قرمز) = 0 * (1/3) / (1/2) = 0
8. بنابراین، با توجه به اینکه می دانیم یک طرف کارت قرمز است، احتمال سبز بودن طرف دیگر کارت 0 است.
9. به عبارت دیگر، دیدن یک طرف قرمز هیچ اطلاعات اضافی در مورد سبز بودن طرف مقابل ارائه نمی دهد، زیرا کارت می تواند کارت 1 یا کارت 3 با احتمال مساوی باشد.
قسمت 7 احتمالات (اشتقاق نادرست) را به قضیه بیز متصل می کند. پاسخ صحیح (1/6) (1)/(1/2) = 1/3 است.
گلوله 8 نتیجهگیری را بیان میکند که هر فرد نیمه هوشیار آشکارا اشتباه میکند. احتمال سبز بودن پشت کارت انتخابی مطمئناً صفر نیست.
و قسمت 9 توضیحات بیهوده و متناقضی را اضافه می کند که با پاسخ احتمال صفر که ارائه شد در تضاد است. با این حال ChatGPT تشخیص نمی دهد که اینها تناقض هستند. اگر مشاهده یک طرف قرمز اطلاعات اضافی ارائه نمی دهد، احتمال انتخاب کارت قرمز/سبز 1/3 است. اگر کارت انتخابی می تواند کارت 1 یا کارت 3 با احتمال مساوی باشد، احتمال انتخاب کارت قرمز/سبز 1/2 است.
چگونه یک انسان باهوش می تواند به این سوال پاسخ دهد؟ خیلی ساده: استفاده از استدلال منطقی. سه راه برای انتخاب ضلع قرمز وجود دارد و در یکی از این سه حالت، طرف دیگر سبز است. بنابراین، احتمال 1 در 3 است. یک پاسخ جذاب، اما نادرست این است که دیدن سمت قرمز کارت 2 را حذف می کند، بنابراین احتمال 1 در 2 است.
ChatGPT به جای آن چه می کند؟ از پایگاه داده وسیع خود برای شناسایی متن مرتبطی استفاده میکند که میتواند در نثری که از نظر دستوری درست، تند، فوقالعاده پرمخاطب و فاقد هرگونه درکی از سؤال یا پاسخ آن است، رشته کند. جملات گاهی بیربط، گاهی گیجکننده، و گاهی نادرست هستند – اما همیشه بر اساس چیزی بیش از الگوهای کلمهای که از نظر آماری شناسایی شدهاند، نیستند. پاسخ با احتمال صفر ChatGPT به وضوح اشتباه است، اما راهی برای تشخیص خطای خود ندارد زیرا به معنای واقعی کلمه نمی داند در مورد چه چیزی صحبت می کند.
این تصور غلط که این چتباتها در هر نقطهای به واقعیت نزدیک هستند، پیامدهایی دارد: قیمتهای غیرعادلانه قیمتهای سهام، شیدایی عمومی در صنعت فناوری برای تبلیغ نرمافزار خود بهعنوان استفادهکننده از «AI»، و وسواس فرهنگی در مورد پتانسیل چیزی، به عنوان من. توضیح دادم، یک ترتیبدهی مجدد متنی با شکوه است. اما شاید مهمتر از همه، هیاهو در مورد LLM ها تهدیدی برای ایجاد یک حباب فناوری جدید است – که در صورت ترکیدن، همان عواقب غم انگیز دیگری را به همراه خواهد داشت.
ادامه مطلب
در مورد هوش مصنوعی و چت ربات ها