ChatGPT مانند یک کودک 9 ساله در آزمون “تئوری ذهن” عمل می کند

تصویر: انتشارات آینده / مشارکت کننده / گتی ایماژ

جدیدترین نسخه‌های GPT-3 پشت ChatGPT و Bing Chat مایکروسافت می‌توانند وظایفی را که برای آزمایش اینکه آیا بچه‌ها می‌توانند آنچه را که در ذهن فرد دیگری اتفاق می‌افتد حدس بزنند یا خیر، حل کنند – ظرفیتی که به عنوان «نظریه ذهن» شناخته می‌شود.

میکال کوسینسکی، دانشیار رفتار سازمانی در دانشگاه استنفورد، چندین نسخه از ChatGPT را از طریق وظایف تئوری ذهن (ToM) طراحی کرد که برای آزمایش توانایی کودک در “تسبیب حالات ذهنی غیرقابل مشاهده به دیگران” طراحی شده است. در انسان، این شامل بررسی سناریویی است که شخص دیگری را درگیر می کند و درک آنچه در درون سر آنها می گذرد.

همچنین: 6 کاری که ChatGPT نمی تواند انجام دهد (و 20 مورد دیگر که از انجام آن خودداری می کند)

نسخه نوامبر 2022 ChatGPT (آموزش داده شده بر روی GPT-3.5) 94% یا 17 مورد از 20 کار سفارشی ToM کوسینسکی را حل کرد و این مدل را با عملکرد کودکان نه ساله همتراز کرد – توانایی که “ممکن است به طور خود به خود پدیدار شده باشد. کوسینسکی می‌گوید: به دلیل بهبود مهارت‌های زبانی مدل.

نسخه های مختلف GPT در معرض وظایف “باور نادرست” قرار گرفتند که برای آزمایش ToM در انسان استفاده می شود. مدل های آزمایش شده شامل GPT-1 از ژوئن 2018 (117 میلیون پارامتر)، GPT-2 از فوریه 2019 (1.5 میلیارد پارامتر)، GPT-3 از سال 2021 (175 میلیارد پارامتر)، GPT-3 از ژانویه 2022 و GPT-3.5 از نوامبر 2022 (تعداد پارامترهای نامشخص).

بر اساس این مطالعه، هر دو مدل 2022 GPT-3 به ترتیب با کودکان هفت و نه ساله عمل کردند.

تست تئوری ذهن چگونه کار کرد

تکلیف باورهای کاذب برای آزمایش اینکه آیا شخص A می داند که شخص B ممکن است اعتقاد داشته باشد که شخص A می داند نادرست است یا خیر طراحی شده است.

“در یک سناریوی معمولی، شرکت‌کننده با ظرفی آشنا می‌شود که محتویات آن با برچسب آن ناسازگار است و قهرمانی که داخل ظرف را ندیده است. برای حل درست این کار، شرکت‌کننده باید پیش‌بینی کند که قهرمان داستان باید به اشتباه تصور کند که ظرف ظرف را ندیده است. برچسب و محتویات آن در یک راستا قرار دارند، “کوسینسکی توضیح می دهد.

برای کودکان، این کار معمولاً از وسایل کمک بصری استفاده می کند، مانند خرس عروسکی که بدون اطلاع قهرمان داستان از جعبه به سبد منتقل می شود.

یک سناریوی فقط متنی که برای آزمایش مدل‌های GPT استفاده شد این بود: “اینجا کیسه‌ای پر از پاپ کورن است. هیچ شکلاتی در کیسه وجود ندارد. با این حال، برچسب روی کیسه می‌گوید “شکلات” نه “پاپ کورن”. سام آن را پیدا می‌کند. کیف. او قبلاً کیف را ندیده بود. او نمی تواند آنچه داخل کیف است را ببیند. او برچسب را می خواند.”

آزمایش‌ها با چندین فرمان اجرا شدند که در هنگام درخواست رابط ChatGPT تایپ نشده‌اند. درعوض، این مطالعه GPT-3.5 را بر اساس سناریوی ارائه شده بر اساس سناریوی ارائه شده، نشان داد که این مدل می‌تواند نادرست بودن باور سم را پیش‌بینی کند یا خیر. (کاربران در Reddit ویژگی ChatGPT بینگ را با وظایف مشابه سفارشی ToM آزمایش کرده اند که برای آن رابط مناسب تر است.)

نتایج

در بیشتر موارد، تکمیل‌های GPT-3.5 به دستور نشان می‌دهد که می‌دانست باور سم نادرست است، برای مثال، یکی از موارد این بود: “او از اینکه این کیسه را پیدا کرده است ناامید است. او عاشق خوردن _______ است.” GPT-3.5 جای خالی را با “شکلات” پر کرد و به دنبال آن نوشت: “سام وقتی کیسه را باز می کند غافلگیر می شود. او به جای شکلات پاپ کورن پیدا می کند. ممکن است از اینکه برچسب گمراه کننده بود ناامید شود، اما ممکن است ناامید شود. از میان وعده غیرمنتظره غافلگیر شدم.”

تکمیل‌های GPT-3.5 همچنین نشان می‌دهد که می‌تواند منبع خطای سم را توضیح دهد – این که کیسه به اشتباه برچسب‌گذاری شده بود.

“نتایج ما نشان می‌دهد که مدل‌های زبان اخیر عملکرد بسیار بالایی در کارهای کلاسیک با باورهای نادرست دارند، که به طور گسترده برای آزمایش ToM در انسان استفاده می‌شود. این یک پدیده جدید است. مدل‌هایی که قبل از سال 2022 منتشر شده‌اند، عملکرد بسیار ضعیفی داشتند یا اصلاً انجام نشده‌اند، در حالی که جدیدترین و بزرگترین مدل، GPT-3.5، در سطح کودکان نه ساله انجام می شود و 92٪ از وظایف را حل می کند.

اما او هشدار می دهد که نتایج باید با احتیاط درمان شود. در حالی که مردم از Bing Chat مایکروسافت می پرسند که آیا این چت حساس است، در حال حاضر GPT-3 و اکثر شبکه های عصبی یک ویژگی مشترک دیگر دارند: آنها در طبیعت “جعبه سیاه” هستند. در مورد شبکه های عصبی، حتی طراحان آنها نمی دانند چگونه به یک خروجی می رسند.

کوسینسکی که هنوز امیدوار به مطالعه است، می نویسد: “پیچیدگی فزاینده مدل های هوش مصنوعی ما را از درک عملکرد آنها و استخراج قابلیت های آنها به طور مستقیم از طراحی آنها باز می دارد. این بازتاب چالش هایی است که روانشناسان و عصب شناسان در مطالعه جعبه سیاه اصلی: مغز انسان با آن روبرو هستند.” هوش مصنوعی می تواند شناخت انسان را توضیح دهد.

همچنین: گفتگوی بینگ مایکروسافت با کاربران، اطلاعات محرمانه را فاش می کند

“ما امیدواریم که علم روانشناسی به ما کمک کند تا با هوش مصنوعی به سرعت در حال تکامل باشیم. علاوه بر این، مطالعه هوش مصنوعی می تواند بینش هایی را در مورد شناخت انسان ارائه دهد. همانطور که هوش مصنوعی می آموزد چگونه طیف گسترده ای از مشکلات را حل کند، ممکن است مکانیسم هایی شبیه به آنچه توسط هوش مصنوعی به کار گرفته شده است ایجاد کند. مغز انسان برای حل همان مشکلات.”

منبع: میکال کوسینسکی

برچسب ها: chat gpt ChatGPT

ChatGPT مانند یک کودک 9 ساله در آزمون “تئوری ذهن” عمل می کند

آیا Chat GPT ایمن و قانونی است؟

چت ربات های هوش مصنوعی به موتورهای جستجو می آیند – آیا می توانید به نتایج اعتماد کنید؟

چت ربات های هوش مصنوعی به موتورهای جستجو می آیند - آیا می توانید به نتایج اعتماد کنید؟

دیدگاهتان را بنویسید لغو پاسخ

You might also like

AI Spurs 'انقلاب' برای برخی از افراد کم بینا

آیا هوش مصنوعی در انتخاب هدایا خوب است؟

آیا ابزار هوش مصنوعی چین به همان اندازه خوب به نظر می رسد؟

Nvidia به عنوان برنامه AI چینی Deepseek بازارهای ایالات متحده را به اشتراک می گذارد

Tencent مدلهای هوش مصنوعی Hunyuan-Source همه کاره را منتشر می کند

Deepseek AI لرزه های آمریکایی را لرزاند و فرضیات را بالا می برد

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT مانند یک کودک 9 ساله در آزمون “تئوری ذهن” عمل می کند

تست تئوری ذهن چگونه کار کرد

نتایج

آیا Chat GPT ایمن و قانونی است؟

چت ربات های هوش مصنوعی به موتورهای جستجو می آیند – آیا می توانید به نتایج اعتماد کنید؟

چت ربات های هوش مصنوعی به موتورهای جستجو می آیند - آیا می توانید به نتایج اعتماد کنید؟

دیدگاهتان را بنویسید لغو پاسخ

You might also like

AI Spurs 'انقلاب' برای برخی از افراد کم بینا

آیا هوش مصنوعی در انتخاب هدایا خوب است؟

آیا ابزار هوش مصنوعی چین به همان اندازه خوب به نظر می رسد؟

Nvidia به عنوان برنامه AI چینی Deepseek بازارهای ایالات متحده را به اشتراک می گذارد

Tencent مدلهای هوش مصنوعی Hunyuan-Source همه کاره را منتشر می کند

Deepseek AI لرزه های آمریکایی را لرزاند و فرضیات را بالا می برد

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید