بر اساس مطالعات تحقیقاتی منتشر شده در مجله Radiological Society of North America، جدیدترین نسخه ChatGPT، یک ربات چت هوش مصنوعی که برای تفسیر زبان و تولید پاسخ توسعه یافته است، با موفقیت آزمونی را به سبک هیئت رادیولوژی گذرانده است و پتانسیل و محدودیت های آن را نشان می دهد.
بر اساس دو مطالعه تحقیقاتی جدید منتشر شده در، آخرین نسخه ChatGPT در آزمونی به سبک تخته رادیولوژی گذرانده شد و پتانسیل مدلهای زبان بزرگ را برجسته کرد اما همچنین محدودیتهایی را آشکار کرد که مانع از قابلیت اطمینان میشوند. رادیولوژیژورنال انجمن رادیولوژی آمریکای شمالی (RSNA).
ChatGPT یک چت ربات هوش مصنوعی (AI) است که از یک مدل یادگیری عمیق برای تشخیص الگوها و روابط بین کلمات در دادههای آموزشی گسترده خود استفاده میکند تا پاسخهای انسانمانند را بر اساس یک اعلان ایجاد کند. اما از آنجایی که هیچ منبعی از حقیقت در دادههای آموزشی آن وجود ندارد، این ابزار میتواند پاسخهایی ایجاد کند که در واقع نادرست هستند.
راجش بایانا، MD، FRCPC، رادیولوژیست شکم و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو، بیمارستان عمومی تورنتو در تورنتو، کانادا، میگوید: «استفاده از مدلهای زبان بزرگ مانند ChatGPT در حال افزایش است و فقط افزایش خواهد یافت». “تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های زبان بزرگ را به همراه محدودیت های فعلی که آن را غیرقابل اعتماد می کند برجسته می کند.”
دکتر Bhayana خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه مصرف کننده در حال رشد در تاریخ نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند Google و Bing گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.
دکتر Bhayana و همکارانش برای ارزیابی عملکرد آن در مورد سوالات آزمون هیئت رادیولوژی و بررسی نقاط قوت و محدودیتها، ابتدا ChatGPT را بر اساس GPT-3.5، که در حال حاضر رایجترین نسخه استفاده میشود، آزمایش کردند. محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوا و دشواری آزمون های کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا استفاده کردند.
سوالات شامل تصاویر نبودند و بر اساس نوع سوال گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن). سوالات تفکر مرتبه بالاتر بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) زیر طبقه بندی شدند.
عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.
محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود. این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) مبارزه کرد. به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10) مبارزه کرد. عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.
GPT-4 در مارس 2023 به شکل محدود برای کاربران پولی منتشر شد، به طور خاص ادعا می کند که قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.
در یک مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه آنهایی که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند، بسیار بهتر از GPT-3.5 عمل کرد.
یافتهها نشان میدهد که GPT-4 قابلیتهای استدلال پیشرفته بهبود یافته به عملکرد بهبود یافته در زمینه رادیولوژی ترجمه میشود. آنها همچنین درک زمینهای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد میکنند، که برای فعال کردن برنامههای پایین دستی آینده بسیار مهم است.
دکتر Bhayana گفت: “مطالعه ما بهبود قابل توجهی در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه نشان می دهد، که پتانسیل رو به رشد مدل های زبانی بزرگ را در این زمینه برجسته می کند.”
GPT-4 هیچ بهبودی در سؤالات تفکر مرتبه پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال نادرست پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.
دکتر Bhayana گفت: “ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی شگفت زده شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست شگفت زده شدیم.” البته، با توجه به نحوه عملکرد این مدلها، پاسخهای نادرست نباید بهویژه تعجبآور باشد.»
تمایل خطرناک ChatGPT برای ایجاد پاسخهای نادرست، که توهم نامیده میشود، در GPT-4 کمتر دیده میشود، اما در حال حاضر هنوز قابلیت استفاده در آموزش و تمرین پزشکی را محدود میکند.
هر دو مطالعه نشان دادند که ChatGPT به طور مداوم از زبان مطمئن استفاده میکرد، حتی اگر نادرست باشد. دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست مطمئن را نادرست تشخیص ندهند، اگر صرفاً برای اطلاعات به آن تکیه شود، خطرناک است.
برای من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و در خلاصه سازی داده ها دارد. دکتر Bhayana گفت: اگر برای یادآوری سریع اطلاعات استفاده شود، همیشه باید واقعیت را بررسی کرد.
منابع:
“اجرای ChatGPT در یک معاینه به سبک هیئت رادیولوژی: بینش هایی در مورد نقاط قوت و محدودیت های فعلی” توسط راجش بایانا، ساتش کریشنا و رابرت آر بلیکنی، 16 مه 2023، رادیولوژی.
DOI: 10.1148/radiol.230582
“GPT-4 در رادیولوژی: بهبود در استدلال پیشرفته” توسط راجش بایانا، رابرت آر. بلیکنی و ساتش کریشنا، 16 مه 2023، رادیولوژی.
DOI: 10.1148/radiol.230987