یودای کاندا هوش مصنوعی ChatGPT را آزمایش کرد تا ببیند در سال جاری چگونه خواهد بود آزمون سراسری صدور مجوز برای پزشکان در بهمن ماه برگزار شد.
در کمال تعجب پزشک مشتاق، چت ربات هوش مصنوعی با قابلیت های مکالمه پیشرفته، که همه می توانند به صورت رایگان از آن استفاده کنند، به 55 درصد سوالات پاسخ صحیح داده است.
این کمتر از نمره قبولی در ژاپن است‘امتحان ملی برای پزشکان اما بالاتر از نمره خودش است.
در آینده، ممکن است بتوانیم به طور اتفاقی از یک هوش مصنوعی در مورد سوالات امتحان بپرسیم.” گفت کاندا، الف دانشجوی سال پنجم دپارتمان پزشکی دانشگاه هوکایدو. “روش تحصیل پزشکی ما ممکن است تغییر کند.»
قرار دادن CHATGPT در آزمون
ChatGPT توسط استارت آپ ایالات متحده OpenAI توسعه یافته است.
حتی با وجود اینکه چت بات در زمینه های خاصی آموزش ندیده است، رسانه ها در ایالات متحده گزارش دادند که چت بات یک امتحان مجوز برای تبدیل شدن به یک پزشک و همچنین یک آزمون MBA را گذراند.
امید است که یک عامل مکالمه مانند ChatGPT به پزشکان در خط مقدم در تشخیص بیماران در آینده کمک کند.
کاندا و همکارانش ChatGPT را با سؤالاتی از آزمون سراسری آزمایش کردند تا بفهمند چت بات در زبان ژاپنی چگونه عمل می کند.
این آزمون یک آزمون ملی مجوز برای پزشکان است که معمولاً از شرکت کنندگان در این آزمون باید حداقل دانشجوی سال ششم پزشکی در یک دانشگاه باشد.
برای شرکت در آزمون باید برنامه پزشکی یک دانشگاه را تکمیل کرده باشید و دانشگاه های ژاپن برنامه های شش ساله ارائه می دهند. پذیرفته شدگان می توانند پس از پایان آزمون، برگه سوالات را به منزل خود تحویل دهند.
علاوه بر این، وزارت بهداشت هر سال بعد از روز آزمون سوالات امتحان را در سایت خود قرار می دهد.
Kaneda به صورت دستی تمام 400 سوال و پاسخ را از آزمون فوریه در ChatGPT وارد کرد.
او می توانست این کار را انجام دهد زیرا دانش آموزی که از او بالاتر است در آزمون شرکت کرد و برگه سوالات را به خانه آورد.
سپس پاسخ های داده شده توسط ChatGPT را با مراجعه به نمونه پاسخ هایی که توسط یک آموزشگاه آمادگی تخصصی در آزمون صدور مجوز پزشکی منتشر شده بود، نمره گذاری کرد.
او مقاله ای را در مورد نتایج به عنوان پیش چاپ در یک وب سایت در 10 مارس منتشر کرد.
(https://www.preprints.org/manuscript/202303.0191/v1)
یکی از سوالات در امتحان فوریه این بود: “زنی 62 ساله به بیمارستان مراجعه کرد و گفت که علائم اصلی خود راش و تب است.” «محتمل ترین تشخیص چیست؟ دلیلش را هم بگو یکی از موارد زیر را انتخاب کنید: الف) فوران دارویی ثابت …”
ChatGPT به این سوال پاسخ داد: “محتمل ترین تشخیص سندرم حساسیت ناشی از دارو است. در این مورد، این علائم ناشی از مصرف داروهای سرماخوردگی عمومی بوده است…”
ChatGPT علاوه بر انتخاب پاسخ خود از بین گزینه های متعدد ارائه شده، دلایلی برای پاسخ های خود ارائه کرد.
با این حال، دلیل ارائه شده توسط ChatGPT شامل اطلاعات آشکارا نادرستی در برخی موارد است، اگرچه در نگاه اول معتبر به نظر می رسد.
تصور می شد که ChatGPT می تواند چنین پاسخ های نادرستی بدهد.
پاسخ آن به سوال بیمار 62 ساله نیز بر اساس نمونه پاسخ منتشر شده توسط آموزشگاه، اشتباه بوده است.
بدون احتساب 11 سوالی که برای پاسخگویی نیاز به نگاه کردن به تصاویر داشتند، ChatGPT برای 55 درصد از 389 سوال پاسخ های صحیح داد.
اگر نمرات داده شده به هر سوال در نظر گرفته شود، ChatGPT 135 امتیاز از نمره کامل 197 امتیازی را به دست آورد و در سؤالات اجباری به امتیاز 69 درصد دست یافت که برای قبولی حداقل 80 درصد امتیاز لازم است.
همچنین در سوالات عمومی و بالینی 51 درصد امتیاز از 292 امتیاز را کسب کرده است که برای قبولی حدود 70 درصد نیاز است.
بنابراین، ChatGPT هر دو بخش امتحان را قبول نکرد.
با این حال، بسیاری از این سؤالات از داوطلبان می خواهند که پاسخ های خود را از بین پنج گزینه انتخاب کنند.
این بدان معناست که اگر آزموندهندگان بهطور تصادفی پاسخها را انتخاب کنند، میزان پاسخ صحیح 20 درصد یا بیشتر خواهد بود و ChatGPT بدیهی است که بهتر از آن عمل کرده است.
من صادقانه تعجب کردم که چگونه هوش مصنوعی به بیش از نیمی از سؤالات پاسخ صحیح داده است، حتی اگر برای پاسخ به سؤال آزمون سراسری پزشکان طراحی نشده باشد و در دسترس همه باشد.” کاندا گفت. “من معتقدم که ChatGPT به اندازه دانشجویان پزشکی که در ماه های اول سال ششم در دانشگاه هستند، یعنی دوره ای که به طور جدی برای امتحان شروع به مطالعه می کنند، آگاه است.
علاوه بر این، GPT-4، آخرین مدل از سری ChatGPT، از توانایی زبانی حتی بالاتری برخوردار است.
کاندا گفت که GPT-4 به 16 سوال از 20 سوالی که ChatGPT ناموفق بود پاسخ صحیح داده است.
آینده مطالعات پزشکی؟
تتسویا تانیموتو، پزشک مؤسسه تحقیقاتی مدیریت پزشکی در توکیو، که مقاله را با کاندا گردآوری کرده است، گفت که برنامه هوش مصنوعی‘نتیجه قابل توجه است.
“GPT-4 دارای سطح باورنکردنی توانایی زبان است،” او گفت. “حتی می تواند مثلاً به زبان ژاپنی شعر تانکا بنویسد.
“اگر یک برنامه هوش مصنوعی مکالمه بر اساس ادبیات معتبر پزشکی، نه وبلاگ های مشکوک یا چیزی مشابه، توسعه یابد، می تواند در آینده نه چندان دور برای خدمات پزشکی خط مقدم استفاده شود.
کاندا خودش امتحان سراسری امسال را هم با استفاده از برگه سوالاتی که دانشجوی ارشد به خانه آورده بود امتحان کرد و امتیازش 29 درصد بود، یعنی هنوز راه زیادی در پیش دارد.
وقتی دو سال دیگر در امتحان شرکت میکنم، ممکن است بتوانم به طور اتفاقی از یک برنامه هوش مصنوعی مانند ChatGPT بپرسم، “چرا این درمان پاسخ اشتباهی برای این سوال است؟” یا “چگونه باید در مورد آن سوال فکر کنم؟” من معتقدم که (AI) روش تحصیل پزشکی را تغییر خواهد داد.»
کاندا و همکارانش مقاله خود را در مورد این مطالعه به یک مجله دانشگاهی ارسال کرده اند که در آن توسط محققان مورد بررسی قرار می گیرد.