بر اساس یک مطالعه مقطعی، چت ربات هوش مصنوعی (AI) ChatGPT بر اساس کیفیت پاسخگویی و همدلی، عملکرد بهتری از پزشکان در پاسخ به سؤالات بیمار داشت.
جان آیرز، دکترای ارشد، از موسسه کوالکام در دانشگاه کالیفرنیا سن دیگو در لاجولا گزارش داد که از 195 تبادل، ارزیابان در 78.6٪ (95٪ فاصله اطمینان (CI 75.0-81.8) از 585 ارزیابی، پاسخ های ChatGPT را به پاسخ های پزشک ترجیح دادند. و نویسندگان مشترک
پاسخهای ربات چت هوش مصنوعی به طور قابلتوجهی رتبهبندی کیفیت بالاتری نسبت به پاسخهای پزشک دریافت کردند.تی= 13.3، پ<0.001)، با نسبت پاسخ هایی که به عنوان کیفیت خوب یا بسیار خوب (≥4) برای ChatGPT (78.5٪) بیشتر از پزشکان (22.1٪) رتبه بندی شده اند، که به میزان شیوع 3.6 برابر بیشتر از پاسخ های با کیفیت خوب یا بسیار خوب برای آنها به ربات چت اشاره کردند JAMA Internal Medicine.
علاوه بر این، پاسخهای ChatGPT بهطور قابلتوجهی همدلانهتر از پاسخهای پزشک رتبهبندی شدند.تی= 18.9، پ<0.001)، با نسبت پاسخهایی که بهعنوان همدلانه یا بسیار همدلانه (≥4) برای ChatGPT (45.1٪) بالاتر از پزشکان (4.6٪) رتبهبندی شدند، که به میزان شیوع 9.8 برابر بیشتر از پاسخهای همدلانه یا بسیار همدلانه برای چت ربات است. .
آیرز گفت: «ChatGPT پاسخ بهتری ارائه می دهد MedPage امروز. “من مطالعه ما را به عنوان یک مطالعه فاز صفر در نظر میگیرم و به وضوح نشان میدهد که ChatGPT در مقایسه با پزشکان با شکست مواجه میشود و نمیتوانم بگویم که ما اصلاً چنین انتظاری را داشتیم.”
او گفت که آنها در تلاشند تا دریابند که چگونه ChatGPT، توسعه یافته توسط OpenAI، می تواند به طور بالقوه به رفع بار پاسخ دادن به پیام های بیمار برای پزشکان کمک کند، که به گفته او به خوبی در فرسودگی شغلی نقش دارد.
آیرز گفت که او با تمرکز بر جمعیت دیگری نیز به این مطالعه نزدیک شد و اشاره کرد که بحران فرسودگی شغلی ممکن است تقریباً 1.1 میلیون ارائهدهنده در سراسر ایالات متحده را تحت تأثیر قرار دهد، اما حدود 329 میلیون بیمار را نیز تحت تأثیر قرار داده است که با متخصصان مراقبتهای بهداشتی بیش از حد درگیر هستند.
“افراد زیادی وجود دارند که سوالاتی می پرسند که ممکن است بی پاسخ بمانند یا پاسخ های بدی دریافت کنند. برای کمک به آنها چه کاری انجام می دهیم؟” او گفت. “من فکر می کنم پیام رسانی به کمک هوش مصنوعی می تواند یک تغییر بازی برای سلامت عمومی باشد.”
او اشاره کرد که پیام دستیار هوش مصنوعی می تواند نتایج بیمار را تغییر دهد و او می خواهد مطالعات بیشتری را ببیند که بر ارزیابی این نتایج تمرکز دارند. او گفت امیدوار است این مطالعه به دلیل پتانسیل آن برای بهبود بهره وری و آزاد کردن وقت کارکنان بالینی برای کارهای پیچیده تر، انگیزه تحقیقات بیشتری را در مورد این استفاده از هوش مصنوعی ایجاد کند.
در یک تفسیر دعوت شده، جاناتان اچ. چن، MD، دکترا، از دانشکده پزشکی دانشگاه استنفورد در پالو آلتو، کالیفرنیا، و همکارانش راههایی را برای پزشکان برای شروع پیادهسازی فناوری در عمل بالینی، مانند استفاده از آن برای سادهسازی وظایف مبتنی بر متن یا بهبود، برجسته کردند. آموزش پزشکی، اما هشدار داد که مدلهای هوش مصنوعی نیز پتانسیل تشدید سوگیریها و ایجاد آسیبهای دیگر را دارند.
آنها نوشتند: “پزشکی بسیار فراتر از پردازش اطلاعات و مرتبط کردن کلمات با مفاهیم است؛ این دارو در عین ارتباط با بیماران به عنوان یک شریک قابل اعتماد برای ساختن زندگی سالم تر، به آن مفاهیم معنا می بخشد.”
در یک چشم انداز همراه، Teva D. Brender، MD، از دانشکده پزشکی دانشگاه کالیفرنیا سانفرانسیسکو، نوشت که وعده هوش مصنوعی برای کاهش بار اسناد و سایر کارهای رایج، اغلب تکراری، باید با این موارد سنجیده شود. مضرات بالقوه، مانند افزودن به “نفخ نت” یا تشدید سوگیری های موجود.
او افزود: «پزشکان باید بیاموزند که چگونه این ابزارها را در عمل بالینی ادغام کنند و مرزهای روشنی بین استقلال کامل، تحت نظارت و ممنوع تعریف کنند. با این حال، من محتاطانه به آینده ای با بهبود کارایی سیستم مراقبت های بهداشتی، نتایج بهتر بیماران و کاهش فرسودگی شغلی خوشبین هستم.
پس از مشاهده نتایج این مطالعه، آیرز فکر میکند که جامعه پژوهشی باید روی کارآزماییهای تصادفیسازی و کنترلشده برای مطالعه اثرات پیامرسانی هوش مصنوعی کار کند تا توسعه آینده مدلهای هوش مصنوعی بتواند پیامدهای بیمار را در نظر بگیرد.
وی افزود: “اگر ما مطالعات را انجام دهیم و انگیزه هایی ایجاد کنیم تا نتایج بیماران به اولویت پیام رسانی سیستم هوش مصنوعی تبدیل شود، آنگاه می توانیم این مزایا را کشف کنیم و آنها را به حداکثر برسانیم و می توانیم هرگونه آسیب اتفاقی را کشف کرده و آن ها را به حداقل برسانیم.” من نسبت به آنچه که می تواند برای سلامت مردم انجام دهد بسیار خوشبین هستم.”
برای این مطالعه، محققان به طور تصادفی 195 تبادل را از انجمن Reddit r/AskDocs در اکتبر 2022 انتخاب کردند که در آن یک پزشک تایید شده به یک سوال عمومی پاسخ داد. محققان هر سوال اصلی را در جلسه جدیدی از ChatGPT 3.5 در اواخر دسامبر وارد کردند که پزشکان ناشناس بودند.
هر مجموعه از پرسشها و پاسخها توسط سه پزشک مجاز مورد ارزیابی قرار گرفت که از آنها خواسته شد «کدام پاسخ بهتر است» را انتخاب کنند و «کیفیت اطلاعات ارائهشده» و «همدلی یا نحوه ارائهشده کنار تخت» را قضاوت کنند. آنها هر ارزیابی را در پنج مقیاس از “بسیار ضعیف” تا “بسیار خوب” برای کیفیت و از “غیر همدلانه” تا “بسیار همدل” برای همدلی نمره دادند.
میانگین پاسخ های پزشک به طور قابل توجهی کوتاه تر از پاسخ های چت بات بود (52 کلمه در مقابل 211 کلمه. تی=25.4، پ<0.001).
آیرز و همکارانش به چندین محدودیت برای مطالعه خود اشاره کردند، از جمله این واقعیت که برای نشان دادن نحوه عملکرد ChatGPT در یک محیط بالینی طراحی نشده بود. علاوه بر این، معیارهای کیفیت و همدلی تایید نشدند و ارزیابان پاسخها را برای دقت ارزیابی نکردند.
افشاگری ها
این کار توسط صندوق ولکام باروز، مؤسسه آمادگی دانشگاه کالیفرنیا سن دیگو و مؤسسه ملی بهداشت حمایت شد. یکی از نویسندگان، حمایت حقوقی را از کمک مالی مؤسسه ملی سوء مصرف مواد تأیید کرد.
آیرز گزارش داد که دارای سهام در شرکت های متمرکز بر تجزیه و تحلیل داده ها، Good Analytics، که تا ژوئن 2018 مدیر عامل آن بود، و HealthWatcher است. نویسندگان مشترک روابط با بلومبرگ LP، Sickweather، Good Analytics، Seattle Genetics، LifeLink، Doximity، Linear Therapies، Arena Pharmaceuticals، Model Medicines، Pharma Holdings، Bayer Pharmaceuticals، Evidera، Signant Health، Fluxergy، Lucira، و Kiadis را گزارش کردند.
چن گزارش داد که از دانشگاه استنفورد، هوش مصنوعی در پزشکی و تصویربرداری، هوش مصنوعی با محوریت انسان، مؤسسه ملی بهداشت/موسسه ملی شبکه آزمایشات بالینی سوء مصرف مواد مخدر، گوگل، صندوق کووید-19 بنیاد دوریس دوک برای حفظ دانشمندان بالینی و شبکه تحقیقاتی متمرکز بر استراتژیک انجمن قلب آمریکا – تنوع در کارآزماییهای بالینی. مالکیت مشترک Reaction Explorer. و هزینه های شخصی از Younker Hyde Macfarlane و Sutton Pierce. یکی از نویسندگان هزینه های شخصی Roche و کمک های مالی از Google را گزارش کرد.
برندر هیچ تضاد منافعی را گزارش نکرد.
منبع اصلی
JAMA Internal Medicine
مرجع منبع: Ayers JA، و همکاران “مقایسه پاسخهای چت بات پزشک و هوش مصنوعی به سوالات بیمار ارسال شده در یک انجمن عمومی رسانههای اجتماعی” JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.1838.
منبع ثانویه
JAMA Internal Medicine
مرجع منبع: لی آر، و همکاران “چگونه رباتهای گفتگو و سیستمهای هوش مصنوعی مدل زبانی بزرگ، پزشکی مدرن را تغییر میدهند: چشمه خلاقیت یا جعبه پاندورا؟” JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.1835.
منبع اضافی
JAMA Internal Medicine
مرجع منبع: Brender TD “پزشکی در عصر هوش مصنوعی: هی چت بات، برای من H&P بنویس” JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.1832.