ChatGPT در آزمون هیئت رادیولوژی گذرانده است

فارغ التحصیلی از آزمون موفقیت آمیز ChatGPT

آخرین نسخه ربات چت هوش مصنوعی ChatGPT یک آزمون به سبک برد رادیولوژی را پشت سر گذاشت، با مدل جدید GPT-4 که به درستی به 81٪ از سوالات پاسخ می دهد، در حالی که GPT-3.5 69٪ بود. با این حال، مسائلی مانند مبارزه با سوالات تفکر مرتبه بالاتر و ایجاد گاه به گاه پاسخ های نادرست، محدودیت هایی را برای پذیرش گسترده تر آن در آموزش و عمل پزشکی ایجاد می کند.

بر اساس مطالعات تحقیقاتی منتشر شده در مجله Radiological Society of North America، جدیدترین نسخه ChatGPT، یک ربات چت هوش مصنوعی که برای تفسیر زبان و تولید پاسخ توسعه یافته است، با موفقیت آزمونی را به سبک هیئت رادیولوژی گذرانده است و پتانسیل و محدودیت های آن را نشان می دهد.

بر اساس دو مطالعه تحقیقاتی جدید منتشر شده در، آخرین نسخه ChatGPT در آزمونی به سبک تخته رادیولوژی گذرانده شد و پتانسیل مدل‌های زبان بزرگ را برجسته کرد اما همچنین محدودیت‌هایی را آشکار کرد که مانع از قابلیت اطمینان می‌شوند. رادیولوژیژورنال انجمن رادیولوژی آمریکای شمالی (RSNA).

ChatGPT یک چت ربات هوش مصنوعی (AI) است که از یک مدل یادگیری عمیق برای تشخیص الگوها و روابط بین کلمات در داده‌های آموزشی گسترده خود استفاده می‌کند تا پاسخ‌های انسان‌مانند را بر اساس یک اعلان ایجاد کند. اما از آنجایی که هیچ منبعی از حقیقت در داده‌های آموزشی آن وجود ندارد، این ابزار می‌تواند پاسخ‌هایی ایجاد کند که در واقع نادرست هستند.

راجش بایانا، MD، FRCPC، رادیولوژیست شکم و سرپرست فناوری در دانشگاه پزشکی تصویربرداری تورنتو، بیمارستان عمومی تورنتو در تورنتو، کانادا، می‌گوید: «استفاده از مدل‌های زبان بزرگ مانند ChatGPT در حال افزایش است و فقط افزایش خواهد یافت». “تحقیق ما بینشی در مورد عملکرد ChatGPT در زمینه رادیولوژی ارائه می دهد و پتانسیل باورنکردنی مدل های زبان بزرگ را به همراه محدودیت های فعلی که آن را غیرقابل اعتماد می کند برجسته می کند.”

دکتر Bhayana خاطرنشان کرد که ChatGPT اخیراً به عنوان سریع ترین برنامه مصرف کننده در حال رشد در تاریخ نامگذاری شده است و چت ربات های مشابه در موتورهای جستجوی محبوبی مانند Google و Bing گنجانده شده اند که پزشکان و بیماران برای جستجوی اطلاعات پزشکی از آنها استفاده می کنند.

دکتر Bhayana و همکارانش برای ارزیابی عملکرد آن در مورد سوالات آزمون هیئت رادیولوژی و بررسی نقاط قوت و محدودیت‌ها، ابتدا ChatGPT را بر اساس GPT-3.5، که در حال حاضر رایج‌ترین نسخه استفاده می‌شود، آزمایش کردند. محققان از 150 سوال چند گزینه ای برای مطابقت با سبک، محتوا و دشواری آزمون های کالج سلطنتی کانادا و هیئت رادیولوژی آمریکا استفاده کردند.

سوالات شامل تصاویر نبودند و بر اساس نوع سوال گروه بندی شدند تا بینشی در مورد عملکرد بدست آورند: تفکر مرتبه پایین (یادآوری دانش، درک پایه) و مرتبه بالاتر (اعمال، تجزیه و تحلیل، ترکیب کردن). سوالات تفکر مرتبه بالاتر بر اساس نوع (توضیح یافته های تصویربرداری، مدیریت بالینی، محاسبه و طبقه بندی، ارتباط بیماری) زیر طبقه بندی شدند.

عملکرد ChatGPT به طور کلی و بر اساس نوع سوال و موضوع مورد ارزیابی قرار گرفت. اعتماد زبان در پاسخ ها نیز مورد ارزیابی قرار گرفت.

محققان دریافتند که ChatGPT بر اساس GPT-3.5 به 69 درصد سؤالات (104 از 150) به درستی پاسخ می دهد که نزدیک به نمره قبولی 70 درصدی است که توسط کالج سلطنتی در کانادا استفاده می شود. این مدل در مورد سؤالاتی که نیاز به تفکر مرتبه پایین تر داشتند (84٪، 51 از 61)، عملکرد نسبتاً خوبی داشت، اما با سؤالات مربوط به تفکر مرتبه بالاتر (60٪، 53 از 89) مبارزه کرد. به طور خاص، با سؤالات مرتبه بالاتر شامل شرح یافته های تصویربرداری (61٪، 28 از 46)، محاسبه و طبقه بندی (25٪، 2 از 8)، و کاربرد مفاهیم (30٪، 3 از 10) مبارزه کرد. عملکرد ضعیف آن در سؤالات تفکر مرتبه بالاتر با توجه به فقدان پیش آموزش خاص رادیولوژی، تعجب آور نبود.

GPT-4 در مارس 2023 به شکل محدود برای کاربران پولی منتشر شد، به طور خاص ادعا می کند که قابلیت های استدلال پیشرفته را نسبت به GPT-3.5 بهبود بخشیده است.

در یک مطالعه بعدی، GPT-4 به 81% (121 از 150) سوالات مشابه به درستی پاسخ داد، عملکرد بهتری از GPT-3.5 داشت و از آستانه عبور از 70% فراتر رفت. GPT-4 در سؤالات تفکر مرتبه بالاتر (81٪)، به ویژه آنهایی که شامل توصیف یافته های تصویربرداری (85٪) و کاربرد مفاهیم (90٪) بودند، بسیار بهتر از GPT-3.5 عمل کرد.

یافته‌ها نشان می‌دهد که GPT-4 قابلیت‌های استدلال پیشرفته بهبود یافته به عملکرد بهبود یافته در زمینه رادیولوژی ترجمه می‌شود. آنها همچنین درک زمینه‌ای بهتر از اصطلاحات خاص رادیولوژی، از جمله توصیفات تصویربرداری را پیشنهاد می‌کنند، که برای فعال کردن برنامه‌های پایین دستی آینده بسیار مهم است.

دکتر Bhayana گفت: “مطالعه ما بهبود قابل توجهی در عملکرد ChatGPT در رادیولوژی در یک دوره زمانی کوتاه نشان می دهد، که پتانسیل رو به رشد مدل های زبانی بزرگ را در این زمینه برجسته می کند.”

GPT-4 هیچ بهبودی در سؤالات تفکر مرتبه پایین نشان نداد (80٪ در مقابل 84٪) و به 12 سؤال نادرست پاسخ داد که GPT-3.5 به درستی پاسخ داد، و سؤالات مربوط به قابلیت اطمینان آن برای جمع آوری اطلاعات را ایجاد کرد.

دکتر Bhayana گفت: “ما در ابتدا از پاسخ های دقیق و مطمئن ChatGPT به برخی از سوالات چالش برانگیز رادیولوژی شگفت زده شدیم، اما سپس به همان اندازه از اظهارات بسیار غیرمنطقی و نادرست شگفت زده شدیم.” البته، با توجه به نحوه عملکرد این مدل‌ها، پاسخ‌های نادرست نباید به‌ویژه تعجب‌آور باشد.»

تمایل خطرناک ChatGPT برای ایجاد پاسخ‌های نادرست، که توهم نامیده می‌شود، در GPT-4 کمتر دیده می‌شود، اما در حال حاضر هنوز قابلیت استفاده در آموزش و تمرین پزشکی را محدود می‌کند.

هر دو مطالعه نشان دادند که ChatGPT به طور مداوم از زبان مطمئن استفاده می‌کرد، حتی اگر نادرست باشد. دکتر بایانا خاطرنشان می کند که این به ویژه برای افراد تازه کار که ممکن است پاسخ های نادرست مطمئن را نادرست تشخیص ندهند، اگر صرفاً برای اطلاعات به آن تکیه شود، خطرناک است.

برای من، این بزرگترین محدودیت آن است. در حال حاضر، ChatGPT بهترین استفاده را برای جرقه زدن ایده ها، کمک به شروع فرآیند نوشتن پزشکی و در خلاصه سازی داده ها دارد. دکتر Bhayana گفت: اگر برای یادآوری سریع اطلاعات استفاده شود، همیشه باید واقعیت را بررسی کرد.

منابع:

“اجرای ChatGPT در یک معاینه به سبک هیئت رادیولوژی: بینش هایی در مورد نقاط قوت و محدودیت های فعلی” توسط راجش بایانا، ساتش کریشنا و رابرت آر بلیکنی، 16 مه 2023، رادیولوژی.
DOI: 10.1148/radiol.230582

“GPT-4 در رادیولوژی: بهبود در استدلال پیشرفته” توسط راجش بایانا، رابرت آر. بلیکنی و ساتش کریشنا، 16 مه 2023، رادیولوژی.
DOI: 10.1148/radiol.230987

برچسب ها: chat gpt ChatGPT

ChatGPT در آزمون هیئت رادیولوژی گذرانده است

کاربران اپل می توانند با استفاده از برنامه جدید با ChatGPT «صحبت کنند». در اینجا آنچه شما می توانید با آن انجام دهید.

ChatGPT و هوش مصنوعی مولد در بازاریابی محتوا: نحوه آماده شدن

ChatGPT و هوش مصنوعی مولد در بازاریابی محتوا: نحوه آماده شدن

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Mistral AI چیست؟ همه چیز در مورد رقیب OpenAi

برنامه شخصی AI Companion Dot در حال خاموش شدن است

چرا یک استارتاپ هوش مصنوعی تحت حمایت آمازون ، Orson Welles Fan Fiction را ساخت؟

پول را پیچ کنید – کپی رایت 1.5B دلار Anthropic برای نویسندگان مکیده است

Openai تیم تحقیقاتی را در پشت شخصیت چتگپ سازماندهی می کند

رشد بخش AI در انگلستان ثبت سرمایه 2.9B £

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT در آزمون هیئت رادیولوژی گذرانده است

کاربران اپل می توانند با استفاده از برنامه جدید با ChatGPT «صحبت کنند». در اینجا آنچه شما می توانید با آن انجام دهید.

ChatGPT و هوش مصنوعی مولد در بازاریابی محتوا: نحوه آماده شدن

ChatGPT و هوش مصنوعی مولد در بازاریابی محتوا: نحوه آماده شدن

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Mistral AI چیست؟ همه چیز در مورد رقیب OpenAi

برنامه شخصی AI Companion Dot در حال خاموش شدن است

چرا یک استارتاپ هوش مصنوعی تحت حمایت آمازون ، Orson Welles Fan Fiction را ساخت؟

پول را پیچ کنید – کپی رایت 1.5B دلار Anthropic برای نویسندگان مکیده است

Openai تیم تحقیقاتی را در پشت شخصیت چتگپ سازماندهی می کند

رشد بخش AI در انگلستان ثبت سرمایه 2.9B £

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید