در یادآوری محدودیت های هوش مصنوعی، ChatGPT در امتحان Gastro شکست خورد

محققان گزارش دادند که ChatGPT OpenAI در یک آزمون تمرینی خودارزیابی از کالج آمریکایی گوارش (ACG) موفق به کسب نمره قبولی نشد.

به گفته آرویند، با استفاده از پرسش‌های ارزیابی‌های چند گزینه‌ای ACG در سال‌های 2021 و 2022، نسخه‌های GPT-3.5 و GPT-4 به ترتیب امتیاز 65.1 درصد (296 از 455 سؤال) و 62.4 درصد (284 سؤال از 455 سؤال) را کسب کردند. Trindade، MD، از موسسه تحقیقات پزشکی Feinstein در Northwell Health در Manhasset، نیویورک، و همکارانش.

هر دو نسخه چت ربات هوش مصنوعی (AI) نتوانستند نمره 70 درصدی لازم برای قبولی در امتحانات را کسب کنند. مجله آمریکایی گوارش.

تریناد گفت: «از اینکه دیدیم معیار در پایین تر است، شوکه شدیم، اما چارچوبی را از نظر بهبود نیز فراهم می کند. MedPage Today. “ما می دانیم که پایین تر است، بنابراین برای بهبود آن چه کاری باید انجام دهیم؟”

تریناد افزود: «این واقعاً درک ذاتی از یک موضوع یا موضوع ندارد، که بسیاری از مردم فکر می‌کنند که دارد». برای پزشکی، شما چیزی می‌خواهید که اطلاعات دقیقی به شما بدهد، چه برای کارآموزان یا حتی برای بیمارانی که به این موضوع نگاه می‌کنند، و آستانه 95 درصد یا بیشتر را می‌خواهید.»

برای انجام آزمایش، محققین هر سؤال را با پاسخ‌های احتمالی آن به طور مستقیم در ChatGPT کپی و جای‌گذاری کردند. پس از اینکه ربات چت هوش مصنوعی پاسخی همراه با توضیح ایجاد کرد، نویسندگان پاسخ مربوطه را در ارزیابی مبتنی بر وب ACG انتخاب کردند.

هر نسخه سالانه ارزیابی شامل 300 سوال چند گزینه ای است که شامل بازخورد بلادرنگ می شود. ارزیابی ها به گونه ای طراحی شده اند که عملکرد آزمون گیرنده را در معاینه هیئت گوارشی هیئت پزشکی داخلی آمریکا منعکس کند.

در مجموع، Trindade و تیم از 455 سوال برای هر نسخه ChatGPT استفاده کردند. آنها 145 سوال را به دلیل نیاز به تصویر حذف کردند. آنها از نسخه GPT-3.5 موجود در 11 مارس استفاده کردند و آزمایش را با نسخه GPT-4 هنگامی که در 25 مارس در دسترس قرار گرفت، دوباره اجرا کردند.

در حالی که محققان دقت 70 درصدی را به عنوان معیار این مطالعه تعیین کردند، Trindade خاطرنشان کرد که جامعه پزشکی باید استانداردهای بسیار بالاتری داشته باشد. او گفت که هجوم اخیر مقالاتی که ChatGPT را نشان می دهد که سایر ارزیابی های پزشکی را گذرانده است ممکن است این واقعیت را تحت الشعاع قرار دهد که این فناوری برای استفاده منظم بالینی آماده نیست.

“شما می توانید یک آستانه را هر طور که می خواهید تعریف کنید و بگویید [ChatGPT] گذراند، اما آیا قبولی برای پزشکی کافی است؟ تو می خواهی آن را در امتحان ACE بگیری.”

وی افزود: «برای جامعه پزشکی مهم است که بدانند هنوز برای پرایم تایم آماده نیست.» “و فقط به این دلیل که تست را پشت سر می گذارد به این معنی نیست که ما باید از آن استفاده کنیم.”

Trindade اذعان کرد که این فناوری با سرعتی باورنکردنی در حال حرکت است و او افراد زیادی را در بخش های پزشکی دیده است که از آن استفاده می کنند. او گفت که در حالی که این فناوری باقی مانده است، متخصصان پزشکی باید به فکر راه هایی برای بهینه سازی آن برای استفاده بالینی باشند.

“از نسلی به نسل دیگر، روشی که ما یاد می گیریم و روشی که به داده ها و اطلاعات دسترسی پیدا می کنیم – چه برای اهداف آموزشی باشد یا حتی برای پاسخ دادن به یک سوال مربوط به مراقبت از بیمار با بیمار روبروی ما – تغییر الگو در چگونه مردم به اطلاعات دسترسی پیدا می کنند.”

این مطالعه نمونه دیگری از تحقیقاتی است که عملکرد مدل‌های هوش مصنوعی را در آزمایش‌های اعتبار پزشکی آزمایش می‌کند، که راهی برای نشان دادن قابلیت‌های این فناوری به عنوان یک ابزار پزشکی شده است.

این تلاش‌ها در دسامبر 2022 نقطه پیشرفتی داشتند، زمانی که محققان گوگل نشان دادند که مدل هوش مصنوعی آموزش‌دیده پزشکی این شرکت، معروف به Med-PaLM، به دقت 67.6 درصد دست یافت و از آستانه معمول برای قبولی در یک سری سؤالات از آزمون مجوز پزشکی ایالات متحده فراتر رفت. USMLE). این محققان در ماه مارس، زمانی که گوگل اعلام کرد که Med-PaLM 2، نسخه به روز شده این مدل هوش مصنوعی، به دقت 85 درصدی دست یافته است، یک گام فراتر رفتند و در یک ارزیابی عملی مشابه با استفاده از سؤالات USMLE در سطوح «متخصص» پزشکان انجام شد.

به نوبه خود، ChatGPT با نشان دادن اینکه می تواند آستانه های دقت برای معاینات پزشکی را پشت سر بگذارد غریبه نبوده است، مانند مطالعه اخیر که نشان می دهد در ارزیابی به سبک هیئت رادیولوژی به دقت 80.7 درصدی دست یافته است. در مطالعه اخیر دیگری، ربات چت هوش مصنوعی حتی در پاسخ به سؤالات ایجاد شده توسط بیماران، پزشکان را شکست می دهد. آن مطالعه نشان داد که ارزیاب‌ها در مقایسه با پاسخ‌های پزشک واقعی در طول یک ارزیابی کور، بیش از ۷۵ درصد از مواقع پاسخ‌های ChatGPT را ترجیح می‌دهند.

به گفته Trindade، این عملکرد امتحان گوارش جدیدترین نمونه است که مدل‌های هوش مصنوعی، به‌ویژه آن‌هایی که هیچ اطلاعات پزشکی و آموزش خاصی ندارند، ابزار کاملی برای استفاده بالینی نیستند.

او گفت: «از آنجایی که این مدل‌های هوش مصنوعی و این پلت‌فرم‌ها در حال عرضه هستند – که تایپ کردن یک سؤال و پاسخ دادن به آن را بسیار آسان می‌کند – جذاب است زیرا ما این روزها خیلی شلوغ هستیم. “کاری که ما باید انجام دهیم این است که فقط یک قدم به عقب برداریم، و من فکر می کنم [papers] مانند این کمک می کند تا مشخص شود که برای زمان اصلی آماده نیست.”

Michael DePeau-Wilson یک خبرنگار در تیم تحقیقاتی و سازمانی MedPage Today است. او روانپزشکی، کووید طولانی، و بیماری های عفونی، از جمله دیگر اخبار بالینی مرتبط ایالات متحده را پوشش می دهد. دنبال کردن

افشاگری ها

Trindade از مشاوره Pentax Medical، Boston Scientific، Lucid Diagnostic و Exact Science و پشتیبانی تحقیقاتی Lucid Diagnostics خبر داد.

منبع اصلی

مجله آمریکایی گوارش

مرجع منبع: Suchman K, et al “ChatGPT در آزمون خودارزیابی کالج آمریکایی گوارش چند گزینه ای مردود شد” Am J Gastroenterol 2023; DOI: 10.14309/ajg.0000000000002320.

برچسب ها: chat gpt ChatGPT

در یادآوری محدودیت های هوش مصنوعی، ChatGPT در امتحان Gastro شکست خورد

قدرت سهام Alphabet بالاتر می رود زیرا BofA می گوید buzz ChatGPT گوگل را تحت تاثیر قرار نداده است.

محققان مایکروسافت ادعا می کنند که هوش مصنوعی ChatGPT نشانه هایی از استدلال انسانی را نشان می دهد

محققان مایکروسافت ادعا می کنند که هوش مصنوعی ChatGPT نشانه هایی از استدلال انسانی را نشان می دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

مایکروسافت خدمات Copilot AI رایگان را به کارگران دولت ایالات متحده ارائه می دهد

VC های ایالات متحده و هندی به تازگی یک اتحاد 1B+ دلار برای تأمین بودجه استارتاپ های فناوری عمیق هند تشکیل داده اند

داوطلب در اختلال 2025 در حالی که هنوز هم می توانید

مدیرعامل Loveable خیلی نگران رقابت با کدگذاری نیست

آیا پاپستارهای AI می توانند آن را در دنیای واقعی بسازند؟

آیا یک عکس پروفایل ایجاد شده توسط AI می تواند به شما در گرفتن شغل کمک کند؟

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

در یادآوری محدودیت های هوش مصنوعی، ChatGPT در امتحان Gastro شکست خورد

قدرت سهام Alphabet بالاتر می رود زیرا BofA می گوید buzz ChatGPT گوگل را تحت تاثیر قرار نداده است.

محققان مایکروسافت ادعا می کنند که هوش مصنوعی ChatGPT نشانه هایی از استدلال انسانی را نشان می دهد

محققان مایکروسافت ادعا می کنند که هوش مصنوعی ChatGPT نشانه هایی از استدلال انسانی را نشان می دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

مایکروسافت خدمات Copilot AI رایگان را به کارگران دولت ایالات متحده ارائه می دهد

VC های ایالات متحده و هندی به تازگی یک اتحاد 1B+ دلار برای تأمین بودجه استارتاپ های فناوری عمیق هند تشکیل داده اند

داوطلب در اختلال 2025 در حالی که هنوز هم می توانید

مدیرعامل Loveable خیلی نگران رقابت با کدگذاری نیست

آیا پاپستارهای AI می توانند آن را در دنیای واقعی بسازند؟

آیا یک عکس پروفایل ایجاد شده توسط AI می تواند به شما در گرفتن شغل کمک کند؟

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید