ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.

در مطالعه اخیر ارسال شده به medRxiv* سرور پیش چاپ، محققان در ایالات متحده عملکرد سه مدل زبان بزرگ (LLM)، ChatGPT (یا GPT-3.5)، GPT-4، و Google Bard را در سؤالات مرتبه بالاتر ارزیابی کردند، که به طور خاص نماینده هیئت آمریکایی معاینه بورد دهان جراحی مغز و اعصاب (ABNS). علاوه بر این، آنها تفاوت‌های عملکرد و دقت خود را پس از ویژگی‌های مختلف سؤال تفسیر کردند.

مطالعه: عملکرد ChatGPT، GPT-4، و Google Bard در بانک سوالات آماده سازی تخته های جراحی مغز و اعصاب. اعتبار تصویر: ورود / Shutterstock

*اطلاعیه مهم: medRxiv گزارش‌های علمی مقدماتی را منتشر می‌کند که توسط همتایان بررسی نمی‌شوند و بنابراین، نباید به‌عنوان اطلاعات قطعی، راهنمای عمل بالینی/رفتار مرتبط با سلامتی در نظر گرفته شوند یا به عنوان اطلاعات ثابت تلقی شوند.

زمینه

هر سه LLM ارزیابی شده در این مطالعه توانایی قبولی در امتحانات هیئت پزشکی با سوالات چند گزینه ای را نشان داده اند. با این حال، هیچ مطالعه قبلی عملکرد چندین LLM را در مورد سؤالات مرتبه بالاتر از یک حوزه فوق تخصصی پزشکی پرمخاطب، به عنوان مثال، جراحی مغز و اعصاب، آزمایش یا مقایسه نکرده است.

یک مطالعه قبلی نشان داد که ChatGPT یک ماژول 500 سوالی تقلید از امتحانات بورد کتبی جراحی مغز و اعصاب را با نمره 73.4 گذراند. مدل به روز شده آن، GPT-4، در 14 مارس 2023 برای استفاده عمومی در دسترس قرار گرفت و به طور مشابه در بیش از 25 آزمون استاندارد به نمرات قبولی دست یافت. مطالعات نشان می دهد که GPT-4 در آزمون مجوز پزشکی ایالات متحده (USMLE) عملکردی بیش از 20 درصد بهبود داشته است.

یکی دیگر از ربات‌های چت مبتنی بر هوش مصنوعی، Google Bard، قابلیت خزیدن در وب را در زمان واقعی داشت، بنابراین، می‌توانست اطلاعات مرتبط‌تری را ارائه دهد و در عین حال پاسخ‌هایی برای آزمون‌های استاندارد در زمینه‌های پزشکی، تجارت و حقوق ایجاد کند. معاینه بورد دهان جراحی مغز و اعصاب ABNS که ارزیابی دقیق‌تری نسبت به همتای کتبی آن در نظر گرفته می‌شود، توسط پزشکان دو تا سه سال پس از فارغ‌التحصیلی انجام می‌شود. این شامل سه جلسه 45 دقیقه ای است و میزان قبولی آن از سال 2018 از 90٪ تجاوز نکرده است.

در مورد مطالعه

در مطالعه حاضر، محققان عملکرد GPT-3.5، GPT-4، و Google Bard را در یک ماژول 149 سوالی با تقلید از آزمون بورد دهان جراحی مغز و اعصاب ارزیابی کردند.

آزمون نشانه‌های جراحی مغز و اعصاب خود ارزیابی (SANS) سؤالات جالبی را در مورد موضوعات نسبتاً دشوار، مانند نشانه‌های جراحی مغز و اعصاب و تصمیم‌گیری مداخله‌ای پوشش می‌دهد. این تیم سؤالات را در قالب سؤال چند گزینه ای با بهترین پاسخ ارزیابی کردند. از آنجایی که هر سه LLM در حال حاضر ورودی چندوجهی ندارند، آنها پاسخ‌ها را با «توهم» برای سؤالات با داده‌های تصویربرداری پزشکی دنبال می‌کنند، سناریوهایی که در آن یک LLM حقایق نادرستی را که به اشتباه معتقد است درست است، بیان می‌کند. در مجموع، 51 سوال تصویربرداری را در ساقه سوال گنجانده بودند.

علاوه بر این، تیم از رگرسیون خطی برای جست‌وجوی همبستگی بین عملکرد در دسته‌های مختلف سؤال استفاده کرد. آنها تغییرات عملکرد را با استفاده از مجذور کای ارزیابی کردند، فیشر دقیقاو آزمون‌های رگرسیون لجستیک با یک متغیر، که 05/0p< از نظر آماری معنی‌دار در نظر گرفته شد.

یافته های مطالعه

در یک بانک 149 سؤالی از سؤالات چند گزینه ای عمدتاً تشخیصی و مدیریتی که برای امتحانات هیئت مدیره جراحی مغز و اعصاب طراحی شده بود، نمره 82.6٪ را به دست آورد و از ChatGPT برتری 62.4٪ داشت. علاوه بر این، GPT-4 عملکرد قابل توجهی بهتر از ChatGPT در فوق تخصص ستون فقرات نشان داد (90.5٪ در مقابل 64.3٪).

Google Bard برای 44.2٪ (66/149) از سوالات پاسخ های صحیح ایجاد کرد. در حالی که به 45 درصد (149/67) سؤالات پاسخ های نادرستی داد، از پاسخ به 7/10 درصد (149/16) سؤالات خودداری کرد. GPT-3.5 و GPT-4 هرگز از پاسخ به یک سؤال مبتنی بر متن خودداری کردند، در حالی که بارد حتی از پاسخ دادن به 14 سؤال مبتنی بر آزمون خودداری کرد. در واقع، GPT-4 در همه دسته‌ها از Google Bard پیشی گرفت و عملکرد بهتری را در دسته‌های سؤالی که ChatGPT برای آن‌ها دقت کمتری نشان داد، نشان داد. جالب توجه است، در حالی که GPT-4 در سوالات مربوط به تصویربرداری بهتر از ChatGPT عمل کرد (68.6٪ در مقابل 47.1٪)، عملکرد آن با Google Bard (68.6٪ در مقابل 66.7٪) قابل مقایسه بود.

با این حال، به ویژه، GPT-4 کاهش نرخ توهم و توانایی هدایت مفاهیم چالش برانگیز مانند اعلام بیهودگی پزشکی را نشان داد. با این حال، در سناریوهای دیگر، مانند فاکتورگیری در ویژگی های سطح بیمار، به عنوان مثال، ضعف، با مشکل مواجه شد.

نتیجه گیری

نیاز فوری به ایجاد اعتماد بیشتر در سیستم‌های LLM وجود دارد، بنابراین، اعتبارسنجی دقیق عملکرد آن‌ها در سناریوهای مرتب‌تر و با پایان باز باید ادامه یابد. این امر ادغام ایمن و مؤثر این LLMها را در فرآیندهای تصمیم گیری بالینی تضمین می کند.

روش‌های کمی‌سازی و درک توهمات حیاتی باقی می‌مانند، و در نهایت، تنها آن دسته از LLM‌ها در عمل بالینی گنجانده می‌شوند که توهم‌ها را به حداقل می‌رسانند و تشخیص می‌دهند. علاوه بر این، یافته‌های مطالعه بر نیاز فوری جراحان مغز و اعصاب برای آگاه ماندن از LLM‌های در حال ظهور و سطوح عملکرد متفاوت آن‌ها برای کاربردهای بالینی بالقوه تأکید می‌کند.

الگوهای معاینه چند گزینه ای ممکن است در آموزش پزشکی منسوخ شوند، در حالی که ارزیابی شفاهی اهمیت بیشتری پیدا می کند. با پیشرفت در حوزه هوش مصنوعی، کارآموزان جراحی مغز و اعصاب ممکن است از LLM ها برای آماده سازی بورد استفاده کنند و به آنها وابسته باشند. برای مثال، پاسخ‌های تولید شده توسط LLMs ممکن است بینش‌های بالینی جدیدی ارائه دهند. آنها همچنین می توانند به عنوان یک کمک مکالمه برای تمرین سناریوهای بالینی مختلف در مورد موضوعات چالش برانگیز برای هیئت مدیره عمل کنند.

مرجع مجله:

گزارش علمی مقدماتی عملکرد ChatGPT، GPT-4، و Google Bard در بانک سوالات آماده سازی تخته های جراحی مغز و اعصاب، Rohaid Ali، Oliver Y. Tang، Ian D. Connolly، Jared S. Fridley، John H. Shin، Patricia L. Zadnik Sullivan، Deus Cielo, Adetokunbo A. Oyelese, Curtis E. Doberstein, Albert E. Telfeian, Ziya L. Gokaslan, Wael F. Asaad, medRxiv preprint 2023.04.06.23288265; DOI:

نوشته شده توسط

نها ماتور

Neha یک حرفه ای دیجیتال مارکتینگ مستقر در Gurugram، هند است. او دارای مدرک کارشناسی ارشد از دانشگاه راجستان با تخصص در بیوتکنولوژی در سال 2008 است. او دارای تجربه در تحقیقات پیش بالینی به عنوان بخشی از پروژه تحقیقاتی خود در بخش سم شناسی در موسسه معتبر تحقیقات دارویی مرکزی (CDRI)، لاکنو، هندوستان او همچنین دارای گواهینامه برنامه نویسی C++ است.

ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.

Bubblr از برنامه نوآورانه GPTDynamic Prototype رونمایی کرد

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

دیدگاهتان را بنویسید لغو پاسخ

You might also like

CSI و Huloop راندمان AI را به بانک ها تحویل می دهند

متا اتصال 2025: چه چیزی را باید انتظار داشته باشید و چگونه تماشا کنید

این استارتاپ 30 میلیون دلاری یک کارخانه ربات با اندازه سگ ساخته شده است که با تماشای انسان یاد می گیرد

9 استارتاپ مورد جستجوی روز نمایشی YC

هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.

زمینه

در مورد مطالعه

یافته های مطالعه

نتیجه گیری

نها ماتور

استناد

Bubblr از برنامه نوآورانه GPTDynamic Prototype رونمایی کرد

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

دیدگاهتان را بنویسید لغو پاسخ

You might also like

CSI و Huloop راندمان AI را به بانک ها تحویل می دهند

متا اتصال 2025: چه چیزی را باید انتظار داشته باشید و چگونه تماشا کنید

این استارتاپ 30 میلیون دلاری یک کارخانه ربات با اندازه سگ ساخته شده است که با تماشای انسان یاد می گیرد

9 استارتاپ مورد جستجوی روز نمایشی YC

هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید