در مطالعه اخیر منتشر شده در سلامت دیجیتال PLOSمحققان عملکرد یک مدل هوش مصنوعی (AI) به نام ChatGPT را برای انجام استدلال بالینی در آزمون مجوز پزشکی ایالات متحده (USMLE) ارزیابی کردند.
USMLE شامل سه آزمون استاندارد است که به دانش آموزان کمک می کند تا مجوز پزشکی در ایالات متحده دریافت کنند.
زمینه
در دهه گذشته پیشرفت هایی در هوش مصنوعی (AI) و یادگیری عمیق وجود داشته است. این فناوریها در چندین صنعت، از تولید و مالی گرفته تا کالاهای مصرفی، قابل استفاده هستند. با این حال، کاربردهای آنها در مراقبت های بالینی، به ویژه سیستم های فناوری اطلاعات مراقبت های بهداشتی (IT)، محدود باقی مانده است. بر این اساس، هوش مصنوعی کاربردهای نسبتا کمی در مراقبت های بالینی گسترده پیدا کرده است.
یکی از دلایل اصلی این موضوع کمبود داده های آموزشی مختص دامنه است. مدلهای دامنه عمومی بزرگ اکنون هوش مصنوعی مبتنی بر تصویر را در تصویربرداری بالینی فعال میکنند. این منجر به توسعه Inception-V3 شده است، یک مدل تصویربرداری پزشکی برتر که دامنه هایی از چشم پزشکی و آسیب شناسی تا پوست را در بر می گیرد.
در چند هفته گذشته، ChatGPT، یک مدل عمومی زبان بزرگ (LLM) توسعه یافته توسط OpenAI (نه اختصاصی به دامنه)، به دلیل پتانسیل استثنایی آن برای انجام مجموعه ای از وظایف زبان طبیعی توجه را به خود جلب کرد. این الگوریتم از یک الگوریتم جدید هوش مصنوعی استفاده می کند که یک توالی کلمه داده شده را بر اساس بافت کلمات نوشته شده قبل از آن پیش بینی می کند.
بنابراین، می تواند توالی کلمات قابل قبولی را بر اساس زبان طبیعی انسان بدون آموزش داده های متنی عظیم ایجاد کند. افرادی که از ChatGPT استفاده کرده اند، آن را قادر به استدلال قیاسی و ایجاد یک زنجیره فکری می دانند.
با توجه به انتخاب USMLE به عنوان بستری برای آزمایش ChatGPT، محققان آن را از نظر زبانی و مفهومی غنی یافتند. این آزمایش حاوی دادههای بالینی چندوجهی (به عنوان مثال، معاینه فیزیکی و نتایج آزمایشهای آزمایشگاهی) بود که برای ایجاد سناریوهای پزشکی مبهم با تشخیصهای افتراقی استفاده میشد.
در مورد مطالعه
در مطالعه حاضر، محققان ابتدا موارد امتحان USMLE را به عنوان سؤالات باز با اعلان های ورودی متغیر، سپس به عنوان سؤالات تک پاسخی چند گزینه ای بدون توجیه اجباری (MC-NJ) رمزگذاری کردند. در نهایت، آنها آنها را به عنوان سؤالات تک جوابی چند گزینه ای با توجیه اجباری انتخاب های مثبت و منفی (MC-J) کدگذاری کردند. به این ترتیب، آنها دقت ChatGPT را برای هر سه مرحله USMLE، مراحل 1، 2CK، و 3 ارزیابی کردند.
در مرحله بعد، دو بازبین پزشک به طور مستقل تطابق ChatGPT را در تمام سوالات و قالبهای ورودی داوری کردند. علاوه بر این، آنها پتانسیل آن را برای افزایش یادگیری انسانی مرتبط با آموزش پزشکی ارزیابی کردند. دو بازبین پزشک نیز محتوای توضیحی ایجاد شده توسط هوش مصنوعی را برای آن بررسی کردند تازگی، غیر بدیهی بودن و اعتبار از دیدگاه دانشجویان پزشکی
علاوه بر این، محققان شیوع بینش را در توضیحات ایجاد شده توسط هوش مصنوعی ارزیابی کردند تا تراکم بینش (DOI) را کمی کنند. فرکانس بالا و DOI متوسط (> 0.6) نشان می دهد که ممکن است برای یک دانشجوی پزشکی دانشی از خروجی هوش مصنوعی به دست آورد، به خصوص زمانی که پاسخ نادرست می دهد. DOI منحصر به فرد بودن، تازگی، غیر واضح بودن و اعتبار بینش های ارائه شده برای بیش از سه گزینه از پنج گزینه پاسخ را نشان می دهد.
نتایج
ChatGPT با دقت بیش از 50 درصد در هر سه آزمون USMLE انجام شد که در برخی از تجزیه و تحلیلها از آستانه قبولی USMLE 60 درصد فراتر رفت. این یک شاهکار فوق العاده است زیرا هیچ مدل قبلی دیگر به این معیار نرسیده است. فقط ماه ها قبل، آنها با دقت 36.7 درصد عمل کردند. تکرار گپ GPT GPT3 به دقت 46% بدون هیچ درخواست یا آموزشی دست یافت، که نشان میدهد تنظیم مدل بیشتر میتواند نتایج دقیقتری به دست آورد. با بلوغ مدل های LLM احتمالاً عملکرد هوش مصنوعی به پیشرفت خود ادامه خواهد داد.
علاوه بر این، ChatGPT بهتر از PubMedGPT، یک LLM مشابه که به طور انحصاری در ادبیات زیست پزشکی آموزش داده شده بود (دقت ~60٪ در مقابل 50.3٪) عملکرد بهتری داشت. به نظر می رسد که ChatGPT، آموزش دیده بر روی محتوای عمومی غیر اختصاصی دامنه، مزایای خود را به عنوان قرار گرفتن در معرض محتوای بالینی بیشتر داشت، به عنوان مثال، پرایمرهای بیماری در مواجهه با بیمار بسیار قطعی تر و سازگارتر هستند.
دلیل دیگری که چرا عملکرد ChatGPT چشمگیرتر بود این است که مدل های قبلی به احتمال زیاد بسیاری از ورودی ها را در حین آموزش دریافت کرده بودند، در حالی که اینطور نبود. توجه داشته باشید که محققان ChatGPT را در برابر آزمونهای USMLE معاصری که فقط در سال 2022 در دسترس عموم قرار گرفتند، آزمایش کردند. با این حال، آنها مدلهای زبان خاص دامنه، مانند PubMedGPT و BioBERT را بر روی مجموعه داده MedQA-USMLE که از سال 2009 در دسترس عموم قرار داشت، آموزش داده بودند.
به طور شگفت انگیزی، دقت ChatGPT به طور متوالی افزایش می یابد، به طوری که برای مرحله 1 کمترین و برای مرحله 3 بالاترین است، که منعکس کننده درک کاربران انسانی در دنیای واقعی است، که موضوع مرحله 1 را نیز دشوار می دانند. این یافته خاص آسیبپذیری هوش مصنوعی را در ارتباط با توانایی انسان نشان میدهد.
علاوه بر این، محققان خاطرنشان کردند که اطلاعات از دست رفته باعث عدم دقت مشاهده شده در پاسخهای ChatGPT میشود که بینش ضعیفتر و بلاتکلیفی در هوش مصنوعی را به همراه داشت. با این حال، تمایلی به انتخاب پاسخ نادرست نشان نداد. در این راستا، آنها میتوانند با ادغام آن با سایر مدلهای آموزش دیده بر روی منابع فراوان و بسیار معتبر در حوزه بالینی (مانند UpToDate) عملکرد ChatGPT را بهبود بخشند.
در حدود 90 درصد از خروجی ها، پاسخ های ایجاد شده توسط ChatGPT نیز بینش قابل توجهی را ارائه می دهد که برای دانشجویان پزشکی ارزشمند است. این توانایی جزئی برای استخراج مفاهیم غیر بدیهی و بدیع را نشان داد که ممکن است دستاوردهای کیفی را برای آموزش پزشکی انسان فراهم کند. به عنوان جایگزینی برای معیار سودمندی در فرآیند یادگیری انسان، پاسخهای ChatGPT نیز بسیار هماهنگ بودند. بنابراین، این خروجیها میتوانند به دانشآموزان کمک کنند تا زبان، منطق و سیر روابط موجود در متن توضیح را درک کنند.
نتیجه گیری
این مطالعه شواهد جدید و شگفتانگیزی ارائه کرد مبنی بر اینکه ChatGPT میتواند چندین کار پیچیده مرتبط با مدیریت اطلاعات پیچیده پزشکی و بالینی را انجام دهد. اگرچه یافتههای مطالعه یک پروتکل مقدماتی برای داوری پاسخهای تولید شده توسط هوش مصنوعی در مورد بینش، تطابق، دقت و ظهور هوش مصنوعی در آموزش پزشکی ارائه میدهد که به زیرساخت تحقیقات علمی باز نیاز دارد. این به استانداردسازی روشهای تجربی و توصیف و کمیت کردن تعاملات انسان و هوش مصنوعی کمک میکند.
به زودی هوش مصنوعی می تواند در عمل بالینی فراگیر شود، با کاربردهای متنوع تقریباً در تمام رشته های پزشکی، به عنوان مثال، پشتیبانی تصمیم گیری بالینی و ارتباط با بیمار. عملکرد قابل توجه ChatGPT همچنین پزشکان را برانگیخت تا با آن آزمایش کنند.
در AnsibleHealth، یک کلینیک بیماری مزمن ریوی، آنها از ChatGPT برای کمک به کارهای چالش برانگیز مانند ساده کردن گزارش های رادیولوژی برای تسهیل درک بیمار استفاده می کنند. مهمتر از آن، آنها از ChatGPT برای طوفان فکری هنگام مواجهه با موارد دشوار تشخیصی استفاده می کنند.
تقاضا برای فرمت های امتحانی جدید همچنان در حال افزایش است. بنابراین، مطالعات آتی باید بررسی کنند که آیا هوش مصنوعی میتواند با کمک به فرآیند توضیح سؤال یا در صورت امکان، نوشتن کل بهطور مستقل به تخلیه تلاش انسان برای انجام آزمایشهای پزشکی (مثلاً USMLE) کمک کند.