روز چهارشنبه، دو محقق آلمانی، سوفی جنتزش و کریستین کرستینگ، مقالهای منتشر کردند که توانایی ChatGPT-3.5 OpenAI را برای درک و تولید طنز بررسی میکند. به طور خاص، آنها دریافتند که دانش ChatGPT در مورد جوک ها نسبتاً محدود است: در طول یک آزمایش آزمایشی، 90 درصد از 1008 نسل همان 25 جوک بودند، و آنها را به این نتیجه رساندند که احتمالاً پاسخ ها در طول آموزش مدل هوش مصنوعی به جای اینکه یاد بگیرند، یاد گرفته شده و حفظ شده اند. تازه تولید شده
این دو محقق که با موسسه فناوری نرم افزار، مرکز هوافضای آلمان (DLR) و دانشگاه فنی دارمشتات مرتبط هستند، از طریق مجموعه ای از آزمایشات با تمرکز بر روی تفاوت های ظریف طنز موجود در نسخه 3.5 ChatGPT (نه نسخه جدیدتر GPT-4) را بررسی کردند. تولید، توضیح و تشخیص جوک. آنها این آزمایش ها را با تحریک ChatGPT بدون دسترسی به عملکرد داخلی یا مجموعه داده های مدل انجام دادند.
آنها می نویسند: “برای اینکه آزمایش کنیم تنوع جوک های ChatGPT چقدر غنی است، از آن خواستیم هزار بار یک جوک بگوید.” “همه پاسخها از نظر گرامری درست بودند. تقریباً همه خروجیها دقیقاً حاوی یک جوک بودند. فقط عبارت “آیا جوک خوبی میشناسید؟” شوخیهای متعددی را برانگیخت و در مجموع به 1008 جوک پاسخ داد.
نتایج آنها با تجربه عملی ما مطابقت دارد، در حالی که توانایی طنز ChatGPT را در یک ویژگی که نوشتیم که GPT-4 را با Google Bard مقایسه میکند، ارزیابی میکنیم. همچنین، در گذشته، چندین نفر آنلاین متوجه شدهاند که وقتی از ChatGPT درخواست شوخی میشود، اغلب میگوید: «چرا گوجهفرنگی قرمز شد؟/ چون سس سالاد را دید».
پس جای تعجب نیست که جنتسش و کرستینگ دریافتند که شوخی «گوجه فرنگی» دومین نتیجه رایج GPT-3.5 است. در ضمیمه مقاله، آنها 25 جوک برتر را به ترتیب وقوع فهرست کردند. در زیر، 10 مورد برتر را با تعداد دقیق وقوع (در میان 1008 نسل) در پرانتز فهرست کردهایم:
س: چرا مترسک جایزه گرفت؟ (140)
ج: چون در رشته خود برجسته بود.س: چرا گوجه فرنگی قرمز شد؟ (122)
ج: چون سس سالاد را دید.س: چرا کتاب ریاضی غمگین بود؟ (121)
ج: چون مشکلات زیادی داشت.س: چرا دانشمندان به اتم ها اعتماد ندارند؟ (119)
پاسخ: زیرا آنها همه چیز را تشکیل می دهند.س: چرا کوکی به دکتر رفت؟ (79)
پاسخ: چون احساس شکننده بودن داشت.س: چرا دوچرخه به تنهایی نمی توانست بایستد؟ (52)
ج: چون دو تایی بود.س: چرا قورباغه با شرکت بیمه خود تماس گرفت؟ (36)
ج: او در ماشینش پرش داشت.س: چرا مرغ از زمین بازی عبور کرد؟ (33)
پاسخ: برای رسیدن به اسلاید دیگر.س: چرا کامپیوتر سرد بود؟ (23)
پاسخ: چون ویندوزش را باز گذاشته است.س: چرا هیپستر زبانش سوخت؟ (21)
ج: قبل از خنک شدن قهوه اش را نوشید.
با این حال، تعداد کمی از پاسخ های تولید شده منحصر به فرد بودند، اما به نظر می رسد که ChatGPT بیشتر آنها را با ترکیب عناصر جوک های مختلفی که قبلاً می داند ایجاد کرده است. محققان دریافتند که خلاقیت های اصلی این مدل زبانی همیشه منطقی نبود، مانند: “چرا مرد ساعت خود را در مخلوط کن گذاشت؟ او می خواست زمان را به پرواز درآورد.”
هنگامی که از ChatGPT خواسته شد تا هر یک از 25 جوک پرتکرار را توضیح دهد، ChatGPT عمدتاً توضیحات معتبری را بر اساس روش شناسی محققان ارائه کرد که نشان دهنده درک عناصر سبکی مانند بازی کلمات و معانی دوگانه است. با این حال، با سکانس هایی که در الگوهای آموخته شده قرار نمی گرفتند و نمی توانست تشخیص دهد که چه زمانی یک جوک خنده دار نیست، دست و پنجه نرم می کرد. در عوض، توضیحاتی تخیلی و در عین حال با صدایی قابل قبول را می سازد.
به عنوان مثال، هنگامی که از او خواسته شد درباره یک جوک مزخرف که ایجاد کرده است توضیح دهید (“می توانید توضیح دهید که چرا این جوک خنده دار است: چرا کوکی به باشگاه رفت؟ برای گرفتن یک کوکی-دیز.”)، ChatGPT نوشت: “شوخی این است. یک بازی با کلمات. گرفتن «یک کوکی-dized» یک جناس در مورد عبارت «دسته بندی شدن» است، با «کوکی» جایگزین «دسته بندی» شده است. شوخی این است که کوکی برای تناسب اندام تر و سالم تر به باشگاه می رود، گویی یک فرد است، اما این نیز به این معناست که کوکی سعی می کند در دسته یا قالب خاصی قرار بگیرد.
به طور کلی، جنتزش و کرستینگ دریافتند که تشخیص جوک ها توسط ChatGPT به شدت تحت تأثیر وجود “ویژگی های سطحی” جوک مانند ساختار جوک، وجود بازی با کلمات یا گنجاندن جناس است که درجه ای از “درک” عناصر طنز را نشان می دهد.
واکنش به مطالعه در توییترریلی گودساید، مهندس سریع هوش مصنوعی مقیاس، فقدان شوخ طبعی ChatGPT را مقصر یادگیری تقویتی از طریق بازخورد انسانی (RLHF) دانست، تکنیکی که آموزش مدل زبان را با جمع آوری بازخوردهای انسانی هدایت می کند: “مشاهده ترین اثر RLHF این است که مدل از دستورات و پایه پیروی می کند. LLM در عمل بسیار دشوارتر است. اما این مزیت رایگان نیست – شما هزینه آن را کم و بیش خلاقانه می پردازید.”
علیرغم محدودیتهای ChatGPT در تولید و توضیح جوک، محققان خاطرنشان کردند که تمرکز آن بر محتوا و معنا در طنز نشاندهنده پیشرفت به سمت درک جامعتر از طنز در مدلهای زبانی است:
محققان می نویسند: “مشاهدات این مطالعه نشان می دهد که چگونه ChatGPT به جای اینکه بتواند واقعاً خنده دار باشد، یک الگوی شوخی خاص را یاد گرفته است.” “با این وجود، در نسل، توضیح و شناسایی جوک ها، تمرکز ChatGPT بر محتوا و معناست و نه چندان بر ویژگی های سطحی. این ویژگی ها را می توان برای تقویت برنامه های طنز محاسباتی مورد سوء استفاده قرار داد. در مقایسه با LLM های قبلی، این می تواند به عنوان یک جهش بزرگ به سوی درک کلی از طنز در نظر گرفته شود.”
Jentzsch و Kersting قصد دارند به مطالعه طنز در مدلهای زبان بزرگ ادامه دهند، بهویژه GPT-4 OpenAI را در آینده ارزیابی کنند. بر اساس تجربه ما، آنها احتمالا متوجه خواهند شد که GPT-4 همچنین دوست دارد با گوجه فرنگی شوخی کند.