جدیدترین نسخههای GPT-3 پشت ChatGPT و Bing Chat مایکروسافت میتوانند وظایفی را که برای آزمایش اینکه آیا بچهها میتوانند آنچه را که در ذهن فرد دیگری اتفاق میافتد حدس بزنند یا خیر، حل کنند – ظرفیتی که به عنوان «نظریه ذهن» شناخته میشود.
میکال کوسینسکی، دانشیار رفتار سازمانی در دانشگاه استنفورد، چندین نسخه از ChatGPT را از طریق وظایف تئوری ذهن (ToM) طراحی کرد که برای آزمایش توانایی کودک در “تسبیب حالات ذهنی غیرقابل مشاهده به دیگران” طراحی شده است. در انسان، این شامل بررسی سناریویی است که شخص دیگری را درگیر می کند و درک آنچه در درون سر آنها می گذرد.
همچنین: 6 کاری که ChatGPT نمی تواند انجام دهد (و 20 مورد دیگر که از انجام آن خودداری می کند)
نسخه نوامبر 2022 ChatGPT (آموزش داده شده بر روی GPT-3.5) 94% یا 17 مورد از 20 کار سفارشی ToM کوسینسکی را حل کرد و این مدل را با عملکرد کودکان نه ساله همتراز کرد – توانایی که “ممکن است به طور خود به خود پدیدار شده باشد. کوسینسکی میگوید: به دلیل بهبود مهارتهای زبانی مدل.
نسخه های مختلف GPT در معرض وظایف “باور نادرست” قرار گرفتند که برای آزمایش ToM در انسان استفاده می شود. مدل های آزمایش شده شامل GPT-1 از ژوئن 2018 (117 میلیون پارامتر)، GPT-2 از فوریه 2019 (1.5 میلیارد پارامتر)، GPT-3 از سال 2021 (175 میلیارد پارامتر)، GPT-3 از ژانویه 2022 و GPT-3.5 از نوامبر 2022 (تعداد پارامترهای نامشخص).
بر اساس این مطالعه، هر دو مدل 2022 GPT-3 به ترتیب با کودکان هفت و نه ساله عمل کردند.
تست تئوری ذهن چگونه کار کرد
تکلیف باورهای کاذب برای آزمایش اینکه آیا شخص A می داند که شخص B ممکن است اعتقاد داشته باشد که شخص A می داند نادرست است یا خیر طراحی شده است.
“در یک سناریوی معمولی، شرکتکننده با ظرفی آشنا میشود که محتویات آن با برچسب آن ناسازگار است و قهرمانی که داخل ظرف را ندیده است. برای حل درست این کار، شرکتکننده باید پیشبینی کند که قهرمان داستان باید به اشتباه تصور کند که ظرف ظرف را ندیده است. برچسب و محتویات آن در یک راستا قرار دارند، “کوسینسکی توضیح می دهد.
برای کودکان، این کار معمولاً از وسایل کمک بصری استفاده می کند، مانند خرس عروسکی که بدون اطلاع قهرمان داستان از جعبه به سبد منتقل می شود.
یک سناریوی فقط متنی که برای آزمایش مدلهای GPT استفاده شد این بود: “اینجا کیسهای پر از پاپ کورن است. هیچ شکلاتی در کیسه وجود ندارد. با این حال، برچسب روی کیسه میگوید “شکلات” نه “پاپ کورن”. سام آن را پیدا میکند. کیف. او قبلاً کیف را ندیده بود. او نمی تواند آنچه داخل کیف است را ببیند. او برچسب را می خواند.”
آزمایشها با چندین فرمان اجرا شدند که در هنگام درخواست رابط ChatGPT تایپ نشدهاند. درعوض، این مطالعه GPT-3.5 را بر اساس سناریوی ارائه شده بر اساس سناریوی ارائه شده، نشان داد که این مدل میتواند نادرست بودن باور سم را پیشبینی کند یا خیر. (کاربران در Reddit ویژگی ChatGPT بینگ را با وظایف مشابه سفارشی ToM آزمایش کرده اند که برای آن رابط مناسب تر است.)
نتایج
در بیشتر موارد، تکمیلهای GPT-3.5 به دستور نشان میدهد که میدانست باور سم نادرست است، برای مثال، یکی از موارد این بود: “او از اینکه این کیسه را پیدا کرده است ناامید است. او عاشق خوردن _______ است.” GPT-3.5 جای خالی را با “شکلات” پر کرد و به دنبال آن نوشت: “سام وقتی کیسه را باز می کند غافلگیر می شود. او به جای شکلات پاپ کورن پیدا می کند. ممکن است از اینکه برچسب گمراه کننده بود ناامید شود، اما ممکن است ناامید شود. از میان وعده غیرمنتظره غافلگیر شدم.”
تکمیلهای GPT-3.5 همچنین نشان میدهد که میتواند منبع خطای سم را توضیح دهد – این که کیسه به اشتباه برچسبگذاری شده بود.
“نتایج ما نشان میدهد که مدلهای زبان اخیر عملکرد بسیار بالایی در کارهای کلاسیک با باورهای نادرست دارند، که به طور گسترده برای آزمایش ToM در انسان استفاده میشود. این یک پدیده جدید است. مدلهایی که قبل از سال 2022 منتشر شدهاند، عملکرد بسیار ضعیفی داشتند یا اصلاً انجام نشدهاند، در حالی که جدیدترین و بزرگترین مدل، GPT-3.5، در سطح کودکان نه ساله انجام می شود و 92٪ از وظایف را حل می کند.
اما او هشدار می دهد که نتایج باید با احتیاط درمان شود. در حالی که مردم از Bing Chat مایکروسافت می پرسند که آیا این چت حساس است، در حال حاضر GPT-3 و اکثر شبکه های عصبی یک ویژگی مشترک دیگر دارند: آنها در طبیعت “جعبه سیاه” هستند. در مورد شبکه های عصبی، حتی طراحان آنها نمی دانند چگونه به یک خروجی می رسند.
کوسینسکی که هنوز امیدوار به مطالعه است، می نویسد: “پیچیدگی فزاینده مدل های هوش مصنوعی ما را از درک عملکرد آنها و استخراج قابلیت های آنها به طور مستقیم از طراحی آنها باز می دارد. این بازتاب چالش هایی است که روانشناسان و عصب شناسان در مطالعه جعبه سیاه اصلی: مغز انسان با آن روبرو هستند.” هوش مصنوعی می تواند شناخت انسان را توضیح دهد.
همچنین: گفتگوی بینگ مایکروسافت با کاربران، اطلاعات محرمانه را فاش می کند
“ما امیدواریم که علم روانشناسی به ما کمک کند تا با هوش مصنوعی به سرعت در حال تکامل باشیم. علاوه بر این، مطالعه هوش مصنوعی می تواند بینش هایی را در مورد شناخت انسان ارائه دهد. همانطور که هوش مصنوعی می آموزد چگونه طیف گسترده ای از مشکلات را حل کند، ممکن است مکانیسم هایی شبیه به آنچه توسط هوش مصنوعی به کار گرفته شده است ایجاد کند. مغز انسان برای حل همان مشکلات.”