محققان گزارش دادند که ChatGPT OpenAI در یک آزمون تمرینی خودارزیابی از کالج آمریکایی گوارش (ACG) موفق به کسب نمره قبولی نشد.
به گفته آرویند، با استفاده از پرسشهای ارزیابیهای چند گزینهای ACG در سالهای 2021 و 2022، نسخههای GPT-3.5 و GPT-4 به ترتیب امتیاز 65.1 درصد (296 از 455 سؤال) و 62.4 درصد (284 سؤال از 455 سؤال) را کسب کردند. Trindade، MD، از موسسه تحقیقات پزشکی Feinstein در Northwell Health در Manhasset، نیویورک، و همکارانش.
هر دو نسخه چت ربات هوش مصنوعی (AI) نتوانستند نمره 70 درصدی لازم برای قبولی در امتحانات را کسب کنند. مجله آمریکایی گوارش.
تریناد گفت: «از اینکه دیدیم معیار در پایین تر است، شوکه شدیم، اما چارچوبی را از نظر بهبود نیز فراهم می کند. MedPage Today. “ما می دانیم که پایین تر است، بنابراین برای بهبود آن چه کاری باید انجام دهیم؟”
تریناد افزود: «این واقعاً درک ذاتی از یک موضوع یا موضوع ندارد، که بسیاری از مردم فکر میکنند که دارد». برای پزشکی، شما چیزی میخواهید که اطلاعات دقیقی به شما بدهد، چه برای کارآموزان یا حتی برای بیمارانی که به این موضوع نگاه میکنند، و آستانه 95 درصد یا بیشتر را میخواهید.»
برای انجام آزمایش، محققین هر سؤال را با پاسخهای احتمالی آن به طور مستقیم در ChatGPT کپی و جایگذاری کردند. پس از اینکه ربات چت هوش مصنوعی پاسخی همراه با توضیح ایجاد کرد، نویسندگان پاسخ مربوطه را در ارزیابی مبتنی بر وب ACG انتخاب کردند.
هر نسخه سالانه ارزیابی شامل 300 سوال چند گزینه ای است که شامل بازخورد بلادرنگ می شود. ارزیابی ها به گونه ای طراحی شده اند که عملکرد آزمون گیرنده را در معاینه هیئت گوارشی هیئت پزشکی داخلی آمریکا منعکس کند.
در مجموع، Trindade و تیم از 455 سوال برای هر نسخه ChatGPT استفاده کردند. آنها 145 سوال را به دلیل نیاز به تصویر حذف کردند. آنها از نسخه GPT-3.5 موجود در 11 مارس استفاده کردند و آزمایش را با نسخه GPT-4 هنگامی که در 25 مارس در دسترس قرار گرفت، دوباره اجرا کردند.
در حالی که محققان دقت 70 درصدی را به عنوان معیار این مطالعه تعیین کردند، Trindade خاطرنشان کرد که جامعه پزشکی باید استانداردهای بسیار بالاتری داشته باشد. او گفت که هجوم اخیر مقالاتی که ChatGPT را نشان می دهد که سایر ارزیابی های پزشکی را گذرانده است ممکن است این واقعیت را تحت الشعاع قرار دهد که این فناوری برای استفاده منظم بالینی آماده نیست.
“شما می توانید یک آستانه را هر طور که می خواهید تعریف کنید و بگویید [ChatGPT] گذراند، اما آیا قبولی برای پزشکی کافی است؟ تو می خواهی آن را در امتحان ACE بگیری.”
وی افزود: «برای جامعه پزشکی مهم است که بدانند هنوز برای پرایم تایم آماده نیست.» “و فقط به این دلیل که تست را پشت سر می گذارد به این معنی نیست که ما باید از آن استفاده کنیم.”
Trindade اذعان کرد که این فناوری با سرعتی باورنکردنی در حال حرکت است و او افراد زیادی را در بخش های پزشکی دیده است که از آن استفاده می کنند. او گفت که در حالی که این فناوری باقی مانده است، متخصصان پزشکی باید به فکر راه هایی برای بهینه سازی آن برای استفاده بالینی باشند.
“از نسلی به نسل دیگر، روشی که ما یاد می گیریم و روشی که به داده ها و اطلاعات دسترسی پیدا می کنیم – چه برای اهداف آموزشی باشد یا حتی برای پاسخ دادن به یک سوال مربوط به مراقبت از بیمار با بیمار روبروی ما – تغییر الگو در چگونه مردم به اطلاعات دسترسی پیدا می کنند.”
این مطالعه نمونه دیگری از تحقیقاتی است که عملکرد مدلهای هوش مصنوعی را در آزمایشهای اعتبار پزشکی آزمایش میکند، که راهی برای نشان دادن قابلیتهای این فناوری به عنوان یک ابزار پزشکی شده است.
این تلاشها در دسامبر 2022 نقطه پیشرفتی داشتند، زمانی که محققان گوگل نشان دادند که مدل هوش مصنوعی آموزشدیده پزشکی این شرکت، معروف به Med-PaLM، به دقت 67.6 درصد دست یافت و از آستانه معمول برای قبولی در یک سری سؤالات از آزمون مجوز پزشکی ایالات متحده فراتر رفت. USMLE). این محققان در ماه مارس، زمانی که گوگل اعلام کرد که Med-PaLM 2، نسخه به روز شده این مدل هوش مصنوعی، به دقت 85 درصدی دست یافته است، یک گام فراتر رفتند و در یک ارزیابی عملی مشابه با استفاده از سؤالات USMLE در سطوح «متخصص» پزشکان انجام شد.
به نوبه خود، ChatGPT با نشان دادن اینکه می تواند آستانه های دقت برای معاینات پزشکی را پشت سر بگذارد غریبه نبوده است، مانند مطالعه اخیر که نشان می دهد در ارزیابی به سبک هیئت رادیولوژی به دقت 80.7 درصدی دست یافته است. در مطالعه اخیر دیگری، ربات چت هوش مصنوعی حتی در پاسخ به سؤالات ایجاد شده توسط بیماران، پزشکان را شکست می دهد. آن مطالعه نشان داد که ارزیابها در مقایسه با پاسخهای پزشک واقعی در طول یک ارزیابی کور، بیش از ۷۵ درصد از مواقع پاسخهای ChatGPT را ترجیح میدهند.
به گفته Trindade، این عملکرد امتحان گوارش جدیدترین نمونه است که مدلهای هوش مصنوعی، بهویژه آنهایی که هیچ اطلاعات پزشکی و آموزش خاصی ندارند، ابزار کاملی برای استفاده بالینی نیستند.
او گفت: «از آنجایی که این مدلهای هوش مصنوعی و این پلتفرمها در حال عرضه هستند – که تایپ کردن یک سؤال و پاسخ دادن به آن را بسیار آسان میکند – جذاب است زیرا ما این روزها خیلی شلوغ هستیم. “کاری که ما باید انجام دهیم این است که فقط یک قدم به عقب برداریم، و من فکر می کنم [papers] مانند این کمک می کند تا مشخص شود که برای زمان اصلی آماده نیست.”
افشاگری ها
Trindade از مشاوره Pentax Medical، Boston Scientific، Lucid Diagnostic و Exact Science و پشتیبانی تحقیقاتی Lucid Diagnostics خبر داد.
منبع اصلی
مجله آمریکایی گوارش
مرجع منبع: Suchman K, et al “ChatGPT در آزمون خودارزیابی کالج آمریکایی گوارش چند گزینه ای مردود شد” Am J Gastroenterol 2023; DOI: 10.14309/ajg.0000000000002320.