ChatGPT اولین آزمون هیئت مدیره خود را پشت سر گذاشت

طبق دو مطالعه جدید، ChatGPT از OpenAI یک امتحان پزشکی دیگر را پشت سر گذاشته است – این بار با کسب نمره قبولی در یک آزمون به سبک هیئت رادیولوژی.

در ارزیابی نسخه GPT-3.5 و نسخه GPT-4 ChatGPT، چت ربات هوش مصنوعی از نمره تقریباً قبولی 69.3 درصد به نمره قبولی 80.7 درصد در یک معاینه 150 سؤالی به سبک هیئت رادیولوژی، Rajesh Bhayana بهبود یافت. دکتر، از دانشگاه پزشکی تصویربرداری تورنتو در کانادا، و همکارانش گزارش دادند رادیولوژی.

به طور خاص، نسخه GPT-4 در سؤالات تفکر بالاتر از نسخه GPT-3.5 عملکرد بهتری داشت (81٪ در مقابل 60٪). پ002/0 =)، به ویژه مواردی که شامل توصیف یافته های تصویربرداری هستند (85٪ در مقابل 61٪). پ009/0 =) و به کارگیری مفاهیم پزشکی (90 درصد در مقابل 30 درصد) پ= 0.006)، آنها گزارش کردند.

قابل ذکر است که نسخه جدیدتر این فناوری نسبت به نسخه GPT-3.5 در سؤالات مرتبه پایین تر (80٪ در مقابل 84٪) پیشرفتی نشان نداد. پ= 0.64)، آنها گفتند.

بهیانا گفت: «پیشرفت در استدلال درجه بالاتر، که نشان‌دهنده بهبود درک زبان زمینه‌ای در رادیولوژی، و همچنین در پزشکی به طور کلی است، نشان می‌دهد که ما به برنامه‌های پایین‌دستی نزدیک‌تر هستیم». MedPage Today.

سوالات مبتنی بر متن و چند گزینه ای بودند و محققان برای ارزیابی نقاط قوت و ضعف خاص این فناوری در ارائه پاسخ، آنها را به دو دسته کلی (بالا و مرتبه پایین) تقسیم کردند. سوالات همچنین برای مطابقت با سبک، محتوا و دشواری هر دو آزمون کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا انتخاب شدند.

محققین سؤالات تفکر درجه پایین را به عنوان سؤالاتی تعریف کردند که بر یادآوری دانش و درک اساسی تمرکز دارند. آنها سؤالات تفکر مرتبه بالاتر را به عنوان سؤالات متمرکز بر کاربرد دانش و تجزیه و تحلیل یا ترکیب اطلاعات تعریف کردند.

این ژانر تحقیقاتی که مدل‌های هوش مصنوعی را در آزمایش‌های اعتبار پزشکی استفاده می‌کند، از زمان انتشار ChatGPT در 30 نوامبر 2022 رایج شده است، و قبولی در امتحانات به سبک هیئت پزشکی یک هدف طولانی مدت برای توسعه‌دهندگان هوش مصنوعی، به‌ویژه زبان بزرگ گوگل متمرکز بر پزشکی بوده است. مدل (LLM) معروف به Med-PaLM.

آن تلاش‌های آزمایش هوش مصنوعی در دسامبر 2022 زمانی که محققان نشان دادند که Med-PaLM به دقت 67.6% دست یافت، یک آستانه مشترک برای نمرات قبولی در آزمون مجوز پزشکی ایالات متحده (USMLE) بود. این یک نقطه عطف بزرگ در اثبات قابلیت‌های این فناوری در پزشکی بود – شبیه به رقابت مداوم هوش مصنوعی با استادان بزرگ شطرنج در طول سال‌ها.

سپس در مارس 2023، گوگل اعلام کرد که نسخه به روز شده LLM خود، به نام Med-PaLM 2، در سطوح پزشکان “متخصص” روی یک سری سوالات تمرینی USMLE انجام می شود و در عین حال دقت 85 درصدی را به دست می آورد – بهبودی 18 درصدی در کمتر. بیش از 3 ماه

علاوه بر آن نمرات برتر، ChatGPT اخیراً در توانایی آن در پاسخ به سؤالات ایجاد شده توسط بیمار مورد ارزیابی قرار گرفت. در مقایسه با پاسخ‌های پزشک واقعی، ارزیابان در یک ارزیابی کور پاسخ‌های ChatGPT را در بیش از 75 درصد مواقع ترجیح می‌دهند. پاسخ‌های چت ربات هوش مصنوعی نیز به‌طور قابل‌توجهی همدلانه‌تر از پاسخ‌های پزشکان رتبه‌بندی شدند.

به گفته بهیانا، در تصویر کلی، تلاش برای اثبات اینکه مدل‌های هوش مصنوعی می‌توانند و نمی‌توانند در حال حاضر انجام دهند، تمرینی برای تعیین معیار است.

او خاطرنشان کرد که تمرکز فعلی بر روی تعیین چگونگی استفاده از ChatGPT و سایر مدل‌های هوش مصنوعی در پزشکی است، اما هشدار داد که برنامه‌ها به دلیل تمایل فناوری‌ها به “توهم” یا دروغگویی محدود هستند – اغلب کاملاً مطمئن. با این حال، او امیدوار است که این فناوری به پیشرفت خود ادامه دهد تا امکان کاربردهای گسترده‌تری در پزشکی فراهم شود.

او گفت: «این امکان وجود دارد که بتوانیم به دقت بسیار بسیار بالایی برسیم. سپس در عمل بالینی می‌توان به آن بیشتر اعتماد کرد، اما این امکان نیز وجود دارد که این فناوری آستانه‌ای داشته باشد.

هدف این است که بیاموزیم پزشکان چقدر می توانند به این ابزارها اعتماد کنند، سپس شروع به کار روی بهبود و بهینه سازی مدل ها برای استفاده های بالینی خاص کنند. در حال حاضر نشان داده شده است که هوش مصنوعی مولد در کاربردهای خاصی مانند دیکته و رونویسی کارآمد است، اما Bhayana معتقد است قبل از اینکه پزشکان بتوانند در موقعیت‌های بالینی پرمخاطره به این ابزارها اعتماد کنند، زمان و به‌روزرسانی‌های بیشتری لازم است.

وقتی این ابزارها بیرون آمدند، [the key will be] درک نحوه عملکرد آنها، جستجوی کاربردهای آنها، و سپس اطمینان از اینکه مردم از نقاط قوت و محدودیت های آنها مطلع شده اند. [physicians] بایانا گفت که می تواند با این فناوری رشد کند.

Michael DePeau-Wilson یک خبرنگار در تیم تحقیقاتی و سازمانی MedPage Today است. او روانپزشکی، کووید طولانی، و بیماری های عفونی، از جمله دیگر اخبار بالینی مرتبط ایالات متحده را پوشش می دهد. دنبال کردن

افشاگری ها

بایانا و نویسندگان همکار هیچ تضاد منافع مرتبطی را گزارش نکردند.

منبع اصلی

رادیولوژی

مرجع منبع: Bhayana R، و همکاران “عملکرد ChatGPT در یک معاینه به سبک هیئت رادیولوژی: بینش هایی در مورد نقاط قوت و محدودیت های فعلی” Radiology 2023; DOI:10.1148/radiol.230582.

منبع ثانویه

رادیولوژی

مرجع منبع: Bhayana R, et al “GPT-4 in radiology: Improvements in advanced reasoning” Radiology 2023; DOI: 10.1148/radiol.230987.

برچسب ها: chat gpt ChatGPT

ChatGPT اولین آزمون هیئت مدیره خود را پشت سر گذاشت

آقای ChatGPT به واشنگتن می رود: سم آلتمن، مدیر عامل OpenAI در مقابل کنگره در مورد خطرات هوش مصنوعی شهادت می دهد.

الکسیس اوهانیان داستان‌های قبل از خواب ساخته‌شده توسط هوش مصنوعی را برای دختر المپیا می‌خواند: «مثل لیب‌های دیوانه است»

الکسیس اوهانیان داستان‌های قبل از خواب ساخته‌شده توسط هوش مصنوعی را برای دختر المپیا می‌خواند: «مثل لیب‌های دیوانه است»

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

مایکروسافت برای کاهش اعتماد به اوپای با خرید AI از Rival anthropic

ماشینهای تفکر به نام اولین شریک APAC Openai

مدل Qwen جدید Alibaba برای شارژ ابزارهای رونویسی AI فوق العاده

مبارزه با کلاهبرداری آنلاین با هوش مصنوعی

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT اولین آزمون هیئت مدیره خود را پشت سر گذاشت

آقای ChatGPT به واشنگتن می رود: سم آلتمن، مدیر عامل OpenAI در مقابل کنگره در مورد خطرات هوش مصنوعی شهادت می دهد.

الکسیس اوهانیان داستان‌های قبل از خواب ساخته‌شده توسط هوش مصنوعی را برای دختر المپیا می‌خواند: «مثل لیب‌های دیوانه است»

الکسیس اوهانیان داستان‌های قبل از خواب ساخته‌شده توسط هوش مصنوعی را برای دختر المپیا می‌خواند: «مثل لیب‌های دیوانه است»

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

مایکروسافت برای کاهش اعتماد به اوپای با خرید AI از Rival anthropic

ماشینهای تفکر به نام اولین شریک APAC Openai

مدل Qwen جدید Alibaba برای شارژ ابزارهای رونویسی AI فوق العاده

مبارزه با کلاهبرداری آنلاین با هوش مصنوعی

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید