Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.

آوریل 19, 2023
در Chatbots, OpenAI
0 0
0
ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter

در مطالعه اخیر ارسال شده به medRxiv* سرور پیش چاپ، محققان در ایالات متحده عملکرد سه مدل زبان بزرگ (LLM)، ChatGPT (یا GPT-3.5)، GPT-4، و Google Bard را در سؤالات مرتبه بالاتر ارزیابی کردند، که به طور خاص نماینده هیئت آمریکایی معاینه بورد دهان جراحی مغز و اعصاب (ABNS). علاوه بر این، آنها تفاوت‌های عملکرد و دقت خود را پس از ویژگی‌های مختلف سؤال تفسیر کردند.

مطالعه: عملکرد ChatGPT، GPT-4، و Google Bard در بانک سوالات آماده سازی تخته های جراحی مغز و اعصاب. اعتبار تصویر: ورود / Shutterstock

*اطلاعیه مهم: medRxiv گزارش‌های علمی مقدماتی را منتشر می‌کند که توسط همتایان بررسی نمی‌شوند و بنابراین، نباید به‌عنوان اطلاعات قطعی، راهنمای عمل بالینی/رفتار مرتبط با سلامتی در نظر گرفته شوند یا به عنوان اطلاعات ثابت تلقی شوند.

زمینه

هر سه LLM ارزیابی شده در این مطالعه توانایی قبولی در امتحانات هیئت پزشکی با سوالات چند گزینه ای را نشان داده اند. با این حال، هیچ مطالعه قبلی عملکرد چندین LLM را در مورد سؤالات مرتبه بالاتر از یک حوزه فوق تخصصی پزشکی پرمخاطب، به عنوان مثال، جراحی مغز و اعصاب، آزمایش یا مقایسه نکرده است.

یک مطالعه قبلی نشان داد که ChatGPT یک ماژول 500 سوالی تقلید از امتحانات بورد کتبی جراحی مغز و اعصاب را با نمره 73.4 گذراند. مدل به روز شده آن، GPT-4، در 14 مارس 2023 برای استفاده عمومی در دسترس قرار گرفت و به طور مشابه در بیش از 25 آزمون استاندارد به نمرات قبولی دست یافت. مطالعات نشان می دهد که GPT-4 در آزمون مجوز پزشکی ایالات متحده (USMLE) عملکردی بیش از 20 درصد بهبود داشته است.

یکی دیگر از ربات‌های چت مبتنی بر هوش مصنوعی، Google Bard، قابلیت خزیدن در وب را در زمان واقعی داشت، بنابراین، می‌توانست اطلاعات مرتبط‌تری را ارائه دهد و در عین حال پاسخ‌هایی برای آزمون‌های استاندارد در زمینه‌های پزشکی، تجارت و حقوق ایجاد کند. معاینه بورد دهان جراحی مغز و اعصاب ABNS که ارزیابی دقیق‌تری نسبت به همتای کتبی آن در نظر گرفته می‌شود، توسط پزشکان دو تا سه سال پس از فارغ‌التحصیلی انجام می‌شود. این شامل سه جلسه 45 دقیقه ای است و میزان قبولی آن از سال 2018 از 90٪ تجاوز نکرده است.

در مورد مطالعه

در مطالعه حاضر، محققان عملکرد GPT-3.5، GPT-4، و Google Bard را در یک ماژول 149 سوالی با تقلید از آزمون بورد دهان جراحی مغز و اعصاب ارزیابی کردند.

آزمون نشانه‌های جراحی مغز و اعصاب خود ارزیابی (SANS) سؤالات جالبی را در مورد موضوعات نسبتاً دشوار، مانند نشانه‌های جراحی مغز و اعصاب و تصمیم‌گیری مداخله‌ای پوشش می‌دهد. این تیم سؤالات را در قالب سؤال چند گزینه ای با بهترین پاسخ ارزیابی کردند. از آنجایی که هر سه LLM در حال حاضر ورودی چندوجهی ندارند، آنها پاسخ‌ها را با «توهم» برای سؤالات با داده‌های تصویربرداری پزشکی دنبال می‌کنند، سناریوهایی که در آن یک LLM حقایق نادرستی را که به اشتباه معتقد است درست است، بیان می‌کند. در مجموع، 51 سوال تصویربرداری را در ساقه سوال گنجانده بودند.

علاوه بر این، تیم از رگرسیون خطی برای جست‌وجوی همبستگی بین عملکرد در دسته‌های مختلف سؤال استفاده کرد. آنها تغییرات عملکرد را با استفاده از مجذور کای ارزیابی کردند، فیشر دقیقاو آزمون‌های رگرسیون لجستیک با یک متغیر، که 05/0p< از نظر آماری معنی‌دار در نظر گرفته شد.

یافته های مطالعه

در یک بانک 149 سؤالی از سؤالات چند گزینه ای عمدتاً تشخیصی و مدیریتی که برای امتحانات هیئت مدیره جراحی مغز و اعصاب طراحی شده بود، نمره 82.6٪ را به دست آورد و از ChatGPT برتری 62.4٪ داشت. علاوه بر این، GPT-4 عملکرد قابل توجهی بهتر از ChatGPT در فوق تخصص ستون فقرات نشان داد (90.5٪ در مقابل 64.3٪).

Google Bard برای 44.2٪ (66/149) از سوالات پاسخ های صحیح ایجاد کرد. در حالی که به 45 درصد (149/67) سؤالات پاسخ های نادرستی داد، از پاسخ به 7/10 درصد (149/16) سؤالات خودداری کرد. GPT-3.5 و GPT-4 هرگز از پاسخ به یک سؤال مبتنی بر متن خودداری کردند، در حالی که بارد حتی از پاسخ دادن به 14 سؤال مبتنی بر آزمون خودداری کرد. در واقع، GPT-4 در همه دسته‌ها از Google Bard پیشی گرفت و عملکرد بهتری را در دسته‌های سؤالی که ChatGPT برای آن‌ها دقت کمتری نشان داد، نشان داد. جالب توجه است، در حالی که GPT-4 در سوالات مربوط به تصویربرداری بهتر از ChatGPT عمل کرد (68.6٪ در مقابل 47.1٪)، عملکرد آن با Google Bard (68.6٪ در مقابل 66.7٪) قابل مقایسه بود.

با این حال، به ویژه، GPT-4 کاهش نرخ توهم و توانایی هدایت مفاهیم چالش برانگیز مانند اعلام بیهودگی پزشکی را نشان داد. با این حال، در سناریوهای دیگر، مانند فاکتورگیری در ویژگی های سطح بیمار، به عنوان مثال، ضعف، با مشکل مواجه شد.

نتیجه گیری

نیاز فوری به ایجاد اعتماد بیشتر در سیستم‌های LLM وجود دارد، بنابراین، اعتبارسنجی دقیق عملکرد آن‌ها در سناریوهای مرتب‌تر و با پایان باز باید ادامه یابد. این امر ادغام ایمن و مؤثر این LLMها را در فرآیندهای تصمیم گیری بالینی تضمین می کند.

روش‌های کمی‌سازی و درک توهمات حیاتی باقی می‌مانند، و در نهایت، تنها آن دسته از LLM‌ها در عمل بالینی گنجانده می‌شوند که توهم‌ها را به حداقل می‌رسانند و تشخیص می‌دهند. علاوه بر این، یافته‌های مطالعه بر نیاز فوری جراحان مغز و اعصاب برای آگاه ماندن از LLM‌های در حال ظهور و سطوح عملکرد متفاوت آن‌ها برای کاربردهای بالینی بالقوه تأکید می‌کند.

الگوهای معاینه چند گزینه ای ممکن است در آموزش پزشکی منسوخ شوند، در حالی که ارزیابی شفاهی اهمیت بیشتری پیدا می کند. با پیشرفت در حوزه هوش مصنوعی، کارآموزان جراحی مغز و اعصاب ممکن است از LLM ها برای آماده سازی بورد استفاده کنند و به آنها وابسته باشند. برای مثال، پاسخ‌های تولید شده توسط LLMs ممکن است بینش‌های بالینی جدیدی ارائه دهند. آنها همچنین می توانند به عنوان یک کمک مکالمه برای تمرین سناریوهای بالینی مختلف در مورد موضوعات چالش برانگیز برای هیئت مدیره عمل کنند.

*اطلاعیه مهم: medRxiv گزارش‌های علمی مقدماتی را منتشر می‌کند که توسط همتایان بررسی نمی‌شوند و بنابراین، نباید به‌عنوان اطلاعات قطعی، راهنمای عمل بالینی/رفتار مرتبط با سلامتی در نظر گرفته شوند یا به عنوان اطلاعات ثابت تلقی شوند.

مرجع مجله:

  • گزارش علمی مقدماتی عملکرد ChatGPT، GPT-4، و Google Bard در بانک سوالات آماده سازی تخته های جراحی مغز و اعصاب، Rohaid Ali، Oliver Y. Tang، Ian D. Connolly، Jared S. Fridley، John H. Shin، Patricia L. Zadnik Sullivan، Deus Cielo, Adetokunbo A. Oyelese, Curtis E. Doberstein, Albert E. Telfeian, Ziya L. Gokaslan, Wael F. Asaad, medRxiv preprint 2023.04.06.23288265; DOI:

نوشته شده توسط

نها ماتور

Neha یک حرفه ای دیجیتال مارکتینگ مستقر در Gurugram، هند است. او دارای مدرک کارشناسی ارشد از دانشگاه راجستان با تخصص در بیوتکنولوژی در سال 2008 است. او دارای تجربه در تحقیقات پیش بالینی به عنوان بخشی از پروژه تحقیقاتی خود در بخش سم شناسی در موسسه معتبر تحقیقات دارویی مرکزی (CDRI)، لاکنو، هندوستان او همچنین دارای گواهینامه برنامه نویسی C++ است.

استناد

لطفاً از یکی از قالب های زیر برای استناد به این مقاله در مقاله، مقاله یا گزارش خود استفاده کنید:

  • APA

    ماتور، نها. (2023، 19 آوریل). ChatGPT-4 از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب بهتر عمل می کند. اخبار-پزشکی. بازبینی شده در 19 آوریل 2023 از

  • MLA

    ماتور، نها. “ChatGPT-4 از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب بهتر عمل می کند.” اخبار-پزشکی. 19 آوریل 2023. .

  • شیکاگو

    ماتور، نها. “ChatGPT-4 از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب بهتر عمل می کند.” اخبار-پزشکی. (دسترسی در 19 آوریل 2023).

  • هاروارد

    ماتور، نها. 2023. ChatGPT-4 بهتر از GPT-3.5 و Google Bard در آزمون بورد دهان جراحی مغز و اعصاب عمل می کند.. News-Medical، مشاهده شده در 19 آوریل 2023،

برچسب ها: chat gptChatGPT
نوشته قبلی

Bubblr از برنامه نوآورانه GPTDynamic Prototype رونمایی کرد

نوشته‌ی بعدی

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

نوشته‌ی بعدی
مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

مایکروسافت می‌خواهد ChatGPT را روی تراشه‌های خود اجرا کند تا عملکرد و کارایی هزینه را افزایش دهد.

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

CSI و Huloop راندمان AI را به بانک ها تحویل می دهند

CSI و Huloop راندمان AI را به بانک ها تحویل می دهند

سپتامبر 17, 2025
متا اتصال 2025: چه چیزی را باید انتظار داشته باشید و چگونه تماشا کنید

متا اتصال 2025: چه چیزی را باید انتظار داشته باشید و چگونه تماشا کنید

سپتامبر 16, 2025
این استارتاپ 30 میلیون دلاری یک کارخانه ربات با اندازه سگ ساخته شده است که با تماشای انسان یاد می گیرد

این استارتاپ 30 میلیون دلاری یک کارخانه ربات با اندازه سگ ساخته شده است که با تماشای انسان یاد می گیرد

سپتامبر 16, 2025
9 استارتاپ مورد جستجوی روز نمایشی YC

9 استارتاپ مورد جستجوی روز نمایشی YC

سپتامبر 16, 2025
هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

سپتامبر 15, 2025
برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

سپتامبر 15, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار