طبق دو مطالعه جدید، ChatGPT از OpenAI یک امتحان پزشکی دیگر را پشت سر گذاشته است – این بار با کسب نمره قبولی در یک آزمون به سبک هیئت رادیولوژی.
در ارزیابی نسخه GPT-3.5 و نسخه GPT-4 ChatGPT، چت ربات هوش مصنوعی از نمره تقریباً قبولی 69.3 درصد به نمره قبولی 80.7 درصد در یک معاینه 150 سؤالی به سبک هیئت رادیولوژی، Rajesh Bhayana بهبود یافت. دکتر، از دانشگاه پزشکی تصویربرداری تورنتو در کانادا، و همکارانش گزارش دادند رادیولوژی.
به طور خاص، نسخه GPT-4 در سؤالات تفکر بالاتر از نسخه GPT-3.5 عملکرد بهتری داشت (81٪ در مقابل 60٪). پ002/0 =)، به ویژه مواردی که شامل توصیف یافته های تصویربرداری هستند (85٪ در مقابل 61٪). پ009/0 =) و به کارگیری مفاهیم پزشکی (90 درصد در مقابل 30 درصد) پ= 0.006)، آنها گزارش کردند.
قابل ذکر است که نسخه جدیدتر این فناوری نسبت به نسخه GPT-3.5 در سؤالات مرتبه پایین تر (80٪ در مقابل 84٪) پیشرفتی نشان نداد. پ= 0.64)، آنها گفتند.
بهیانا گفت: «پیشرفت در استدلال درجه بالاتر، که نشاندهنده بهبود درک زبان زمینهای در رادیولوژی، و همچنین در پزشکی به طور کلی است، نشان میدهد که ما به برنامههای پاییندستی نزدیکتر هستیم». MedPage Today.
سوالات مبتنی بر متن و چند گزینه ای بودند و محققان برای ارزیابی نقاط قوت و ضعف خاص این فناوری در ارائه پاسخ، آنها را به دو دسته کلی (بالا و مرتبه پایین) تقسیم کردند. سوالات همچنین برای مطابقت با سبک، محتوا و دشواری هر دو آزمون کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا انتخاب شدند.
محققین سؤالات تفکر درجه پایین را به عنوان سؤالاتی تعریف کردند که بر یادآوری دانش و درک اساسی تمرکز دارند. آنها سؤالات تفکر مرتبه بالاتر را به عنوان سؤالات متمرکز بر کاربرد دانش و تجزیه و تحلیل یا ترکیب اطلاعات تعریف کردند.
این ژانر تحقیقاتی که مدلهای هوش مصنوعی را در آزمایشهای اعتبار پزشکی استفاده میکند، از زمان انتشار ChatGPT در 30 نوامبر 2022 رایج شده است، و قبولی در امتحانات به سبک هیئت پزشکی یک هدف طولانی مدت برای توسعهدهندگان هوش مصنوعی، بهویژه زبان بزرگ گوگل متمرکز بر پزشکی بوده است. مدل (LLM) معروف به Med-PaLM.
آن تلاشهای آزمایش هوش مصنوعی در دسامبر 2022 زمانی که محققان نشان دادند که Med-PaLM به دقت 67.6% دست یافت، یک آستانه مشترک برای نمرات قبولی در آزمون مجوز پزشکی ایالات متحده (USMLE) بود. این یک نقطه عطف بزرگ در اثبات قابلیتهای این فناوری در پزشکی بود – شبیه به رقابت مداوم هوش مصنوعی با استادان بزرگ شطرنج در طول سالها.
سپس در مارس 2023، گوگل اعلام کرد که نسخه به روز شده LLM خود، به نام Med-PaLM 2، در سطوح پزشکان “متخصص” روی یک سری سوالات تمرینی USMLE انجام می شود و در عین حال دقت 85 درصدی را به دست می آورد – بهبودی 18 درصدی در کمتر. بیش از 3 ماه
علاوه بر آن نمرات برتر، ChatGPT اخیراً در توانایی آن در پاسخ به سؤالات ایجاد شده توسط بیمار مورد ارزیابی قرار گرفت. در مقایسه با پاسخهای پزشک واقعی، ارزیابان در یک ارزیابی کور پاسخهای ChatGPT را در بیش از 75 درصد مواقع ترجیح میدهند. پاسخهای چت ربات هوش مصنوعی نیز بهطور قابلتوجهی همدلانهتر از پاسخهای پزشکان رتبهبندی شدند.
به گفته بهیانا، در تصویر کلی، تلاش برای اثبات اینکه مدلهای هوش مصنوعی میتوانند و نمیتوانند در حال حاضر انجام دهند، تمرینی برای تعیین معیار است.
او خاطرنشان کرد که تمرکز فعلی بر روی تعیین چگونگی استفاده از ChatGPT و سایر مدلهای هوش مصنوعی در پزشکی است، اما هشدار داد که برنامهها به دلیل تمایل فناوریها به “توهم” یا دروغگویی محدود هستند – اغلب کاملاً مطمئن. با این حال، او امیدوار است که این فناوری به پیشرفت خود ادامه دهد تا امکان کاربردهای گستردهتری در پزشکی فراهم شود.
او گفت: «این امکان وجود دارد که بتوانیم به دقت بسیار بسیار بالایی برسیم. سپس در عمل بالینی میتوان به آن بیشتر اعتماد کرد، اما این امکان نیز وجود دارد که این فناوری آستانهای داشته باشد.
هدف این است که بیاموزیم پزشکان چقدر می توانند به این ابزارها اعتماد کنند، سپس شروع به کار روی بهبود و بهینه سازی مدل ها برای استفاده های بالینی خاص کنند. در حال حاضر نشان داده شده است که هوش مصنوعی مولد در کاربردهای خاصی مانند دیکته و رونویسی کارآمد است، اما Bhayana معتقد است قبل از اینکه پزشکان بتوانند در موقعیتهای بالینی پرمخاطره به این ابزارها اعتماد کنند، زمان و بهروزرسانیهای بیشتری لازم است.
وقتی این ابزارها بیرون آمدند، [the key will be] درک نحوه عملکرد آنها، جستجوی کاربردهای آنها، و سپس اطمینان از اینکه مردم از نقاط قوت و محدودیت های آنها مطلع شده اند. [physicians] بایانا گفت که می تواند با این فناوری رشد کند.
افشاگری ها
بایانا و نویسندگان همکار هیچ تضاد منافع مرتبطی را گزارش نکردند.
منبع اصلی
رادیولوژی
مرجع منبع: Bhayana R، و همکاران “عملکرد ChatGPT در یک معاینه به سبک هیئت رادیولوژی: بینش هایی در مورد نقاط قوت و محدودیت های فعلی” Radiology 2023; DOI:10.1148/radiol.230582.
منبع ثانویه
رادیولوژی
مرجع منبع: Bhayana R, et al “GPT-4 in radiology: Improvements in advanced reasoning” Radiology 2023; DOI: 10.1148/radiol.230987.