Chat-GPT امتحان هیئت رادیولوژی را گذرانده است

بر اساس دو مطالعه تحقیقاتی جدید منتشر شده در، آخرین نسخه ChatGPT در آزمونی به سبک تخته رادیولوژی گذرانده شد و پتانسیل مدل‌های زبان بزرگ را برجسته کرد اما همچنین محدودیت‌هایی را آشکار کرد که مانع از قابلیت اطمینان می‌شوند. رادیولوژیژورنال انجمن رادیولوژی آمریکای شمالی (RSNA).

ChatGPT یک چت ربات هوش مصنوعی (AI) است که از یک مدل یادگیری عمیق برای تشخیص الگوها و روابط بین کلمات در داده‌های آموزشی گسترده خود استفاده می‌کند تا پاسخ‌های انسان‌مانند را بر اساس یک اعلان ایجاد کند. اما از آنجایی که هیچ منبعی از حقیقت در داده‌های آموزشی آن وجود ندارد، این ابزار می‌تواند پاسخ‌هایی ایجاد کند که در واقع نادرست هستند.

راجش بایانا، MD، FRCPC، رادیولوژیست شکم و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو، بیمارستان عمومی تورنتو در تورنتو، کانادا، می‌گوید: «استفاده از مدل‌های زبان بزرگ مانند ChatGPT در حال افزایش است و فقط افزایش خواهد یافت». “تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های زبان بزرگ را به همراه محدودیت های فعلی که آن را غیرقابل اعتماد می کند برجسته می کند.”

دکتر Bhayana خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه مصرف کننده در حال رشد در تاریخ نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند Google و Bing گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.

دکتر Bhayana و همکارانش برای ارزیابی عملکرد آن در مورد سوالات آزمون هیئت رادیولوژی و بررسی نقاط قوت و محدودیت‌ها، ابتدا ChatGPT را بر اساس GPT-3.5، که در حال حاضر رایج‌ترین نسخه استفاده می‌شود، آزمایش کردند. محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوا و دشواری آزمون های کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا استفاده کردند.

سوالات شامل تصاویر نبودند و بر اساس نوع سوال گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن). سوالات تفکر مرتبه بالاتر بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) زیر طبقه بندی شدند.

عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.

محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود. این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) مبارزه کرد. به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10) مبارزه کرد. عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان موارد خاص رادیولوژی، تعجب آور نبود.

GPT-4 در مارس 2023 به شکل محدود برای کاربران پولی منتشر شد، به طور خاص ادعا می کند که قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.

در یک مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه آنهایی که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند، بسیار بهتر از GPT-3.5 عمل کرد.

یافته‌ها نشان می‌دهد که GPT-4 قابلیت‌های استدلال پیشرفته بهبود یافته به عملکرد بهبود یافته در زمینه رادیولوژی ترجمه می‌شود. آنها همچنین درک زمینه‌ای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد می‌کنند، که برای فعال کردن برنامه‌های پایین دستی آینده بسیار مهم است.

دکتر Bhayana گفت: “مطالعه ما بهبود قابل توجهی در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه نشان می دهد، که پتانسیل رو به رشد مدل های زبانی بزرگ را در این زمینه برجسته می کند.”

GPT-4 هیچ بهبودی در سؤالات تفکر مرتبه پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال نادرست پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.

دکتر Bhayana گفت: “ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی شگفت زده شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست شگفت زده شدیم.” البته، با توجه به نحوه عملکرد این مدل‌ها، پاسخ‌های نادرست نباید به‌ویژه تعجب‌آور باشد.»

تمایل خطرناک ChatGPT برای ایجاد پاسخ‌های نادرست، که توهم نامیده می‌شود، در GPT-4 کمتر دیده می‌شود، اما در حال حاضر هنوز قابلیت استفاده در آموزش و تمرین پزشکی را محدود می‌کند.

هر دو مطالعه نشان دادند که ChatGPT به طور مداوم از زبان مطمئن استفاده می‌کرد، حتی اگر نادرست باشد. دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست مطمئن را نادرست تشخیص ندهند، اگر صرفاً برای اطلاعات به آن تکیه شود، خطرناک است.

برای من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و در خلاصه سازی داده ها دارد. دکتر Bhayana گفت: اگر برای یادآوری سریع اطلاعات استفاده شود، همیشه باید واقعیت را بررسی کرد.

منابع: Bhayana R، Krishna S، Bleakney RR. عملکرد ChatGPT در یک معاینه به سبک هیئت رادیولوژی: بینش در مورد نقاط قوت و محدودیت های فعلی. رادیولوژی. تاریخ انتشار آنلاین 16 مه 2023: 230582. doi:10.1148/radiol.230582

Bhayana R، Bleakney RR، Krishna S. GPT-4 در رادیولوژی: بهبودهایی در استدلال پیشرفته. رادیولوژی. منتشر شده آنلاین در 16 مه 2023: 230987. doi:10.1148/radiol.230987

برچسب ها: chat gpt ChatGPT

Chat-GPT امتحان هیئت رادیولوژی را گذرانده است

جنبه دیگری از رونق هوش مصنوعی: تشخیص آنچه که هوش مصنوعی می سازد

“چای من را نگه دار”: چای فروشی با نام عجیب Chai GPT کنجکاوی را برمی انگیزد

"چای من را نگه دار": چای فروشی با نام عجیب Chai GPT کنجکاوی را برمی انگیزد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

مایکروسافت برای کاهش اعتماد به اوپای با خرید AI از Rival anthropic

ماشینهای تفکر به نام اولین شریک APAC Openai

مدل Qwen جدید Alibaba برای شارژ ابزارهای رونویسی AI فوق العاده

مبارزه با کلاهبرداری آنلاین با هوش مصنوعی

Koah 5 میلیون دلار جمع می کند تا تبلیغات را به برنامه های AI وارد کند

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

Chat-GPT امتحان هیئت رادیولوژی را گذرانده است

جنبه دیگری از رونق هوش مصنوعی: تشخیص آنچه که هوش مصنوعی می سازد

“چای من را نگه دار”: چای فروشی با نام عجیب Chai GPT کنجکاوی را برمی انگیزد

"چای من را نگه دار": چای فروشی با نام عجیب Chai GPT کنجکاوی را برمی انگیزد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

مایکروسافت برای کاهش اعتماد به اوپای با خرید AI از Rival anthropic

ماشینهای تفکر به نام اولین شریک APAC Openai

مدل Qwen جدید Alibaba برای شارژ ابزارهای رونویسی AI فوق العاده

مبارزه با کلاهبرداری آنلاین با هوش مصنوعی

Koah 5 میلیون دلار جمع می کند تا تبلیغات را به برنامه های AI وارد کند

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید