تجسم عملکرد ChatGPT در امتحانات انسانی
ChatGPT، یک مدل زبان که توسط OpenAI توسعه یافته است، در طول سال گذشته به دلیل توانایی آن در ایجاد پاسخهای انسانمانند در طیف وسیعی از شرایط، بسیار محبوب شده است.
در واقع، ChatGPT آنقدر توانمند شده است که دانش آموزان اکنون از آن برای کمک به تکالیف خود استفاده می کنند. این امر باعث شده است که چندین منطقه آموزشی ایالات متحده مانع از دسترسی دستگاهها به مدل در هنگام استفاده از شبکه خود شوند.
بنابراین، ChatGPT چقدر هوشمند است؟
در یک گزارش فنی که در 27 مارس 2023 منتشر شد، OpenAI خلاصهای جامع از جدیدترین مدل خود، معروف به GPT-4 ارائه کرد. مجموعه ای از نتایج امتحان در این گزارش گنجانده شده است که در نمودار بالا به تصویر کشیده شده است.
GPT-4 در مقابل GPT-3.5
برای محک زدن قابلیتهای ChatGPT، OpenAI آزمونهای مختلف حرفهای و آکادمیک را شبیهسازی کرد. این شامل آزمونهای SAT، آزمون وکالت و فینالهای مختلف قرارگیری پیشرفته (AP) میشود.
عملکرد در اندازه گیری شد صدک هاکه بر اساس آخرین توزیعهای امتیازی موجود برای شرکتکنندگان در هر نوع آزمون بود.
امتیاز دهی درصدی روشی برای رتبه بندی عملکرد فرد نسبت به عملکرد دیگران است. به عنوان مثال، اگر در یک آزمون در صدک 60 قرار گرفتید، به این معنی است که نمره بالاتر از 60 درصد از شرکت کنندگان در آزمون را کسب کرده اید.
جدول زیر نتایجی را که در نمودار مشاهده کرده ایم فهرست می کند.
دسته بندی | امتحان | GPT-4 صدک |
GPT-3.5 صدک |
---|---|---|---|
قانون | آزمون یکنواخت وکالت | 90 | 10 |
قانون | LSAT | 88 | 40 |
SAT | خواندن و نوشتن مبتنی بر شواهد | 93 | 87 |
SAT | ریاضی | 89 | 70 |
آزمون سوابق تحصیلات تکمیلی (GRE) | کمی | 80 | 25 |
آزمون سوابق تحصیلات تکمیلی (GRE) | کلامی | 99 | 63 |
آزمون سوابق تحصیلات تکمیلی (GRE) | نوشتن | 54 | 54 |
قرار دادن پیشرفته (AP) | زیست شناسی | 85 | 62 |
قرار دادن پیشرفته (AP) | حساب دیفرانسیل و انتگرال | 43 | 0 |
قرار دادن پیشرفته (AP) | علم شیمی | 71 | 22 |
قرار دادن پیشرفته (AP) | فیزیک 2 | 66 | 30 |
قرار دادن پیشرفته (AP) | روانشناسی | 83 | 83 |
قرار دادن پیشرفته (AP) | آمار | 85 | 40 |
قرار دادن پیشرفته (AP) | زبان انگلیسی | 14 | 14 |
قرار دادن پیشرفته (AP) | ادبیات انگلیسی | 8 | 8 |
برنامه نویسی رقابتی | رتبه بندی Codeforces |
نمرات گزارش شده در بالا برای GPT-4 با ورودی های بصری فعال است. لطفاً گزارش فنی OpenAI را برای نتایج جامعتر ببینید.
همانطور که می بینیم، GPT-4 (منتشر شده در مارس 2023) در اکثر این آزمون ها بسیار توانمندتر از GPT-3.5 (منتشر شده در مارس 2022) است. با این حال، قادر به بهبود آن نبود AP انگلیسی و در برنامه نویسی رقابتی.
در مورد AP English (و سایر آزمونهایی که پاسخهای کتبی مورد نیاز بود)، موارد ارسالی ChatGPT توسط «1-2 پیمانکار شخص ثالث واجد شرایط با تجربه کاری مرتبط در رتبهبندی آن مقالات» درجهبندی شدند. در حالی که ChatGPT مطمئناً قادر به تولید مقالات کافی است، ممکن است در درک نکات امتحان دچار مشکل شده باشد.
برای برنامه نویسی رقابتی، GPT 10 مسابقه Codeforces را 100 بار انجام داد. Codeforces میزبان مسابقات برنامه نویسی رقابتی است که در آن شرکت کنندگان باید مسائل پیچیده را حل کنند. میانگین امتیاز Codeforces GPT-4 392 است (زیر صدک 5)، در حالی که بالاترین آن در یک مسابقه منفرد حدود 1300 بود. با ارجاع به صفحه رتبه بندی Codeforces، کاربر دارای امتیاز برتر است به طرز عجیبی از چین با رتبه 3841.
چه چیزی با GPT-4 تغییر کرده است؟
در اینجا مواردی وجود دارد که GPT-4 تجربه کاربری را نسبت به GPT-3.5 بهبود بخشیده است.
دسترسی به اینترنت و پلاگین ها
یک عامل محدود کننده GPT-3.5 این بود که به اینترنت دسترسی نداشت و فقط تا ژوئن 2021 بر روی داده ها آموزش دیده بود.
با GPT-4، کاربران به پلاگین های مختلفی دسترسی خواهند داشت که ChatGPT را برای دسترسی به اینترنت، ارائه پاسخ های به روزتر و انجام طیف وسیع تری از وظایف، توانمند می کند. این شامل افزونههای شخص ثالث از سرویسهایی مانند Expedia است که ChatGPT را قادر میسازد تا کل تعطیلات را برای شما رزرو کند.
ورودی های بصری
در حالی که GPT-3.5 فقط می تواند ورودی های متن را بپذیرد، GPT-4 توانایی تجزیه و تحلیل تصاویر را نیز دارد. کاربران می توانند از ChatGPT بخواهند که یک عکس را توصیف کند، نمودار را تجزیه و تحلیل کند یا حتی یک میم را توضیح دهد.
طول زمینه بیشتر
در نهایت، GPT-4 قادر است حجم بسیار بیشتری از متن را مدیریت کند و مکالمات را برای مدت طولانی تری ادامه دهد. برای مرجع، GPT-3.5 حداکثر مقدار درخواستی 4096 توکن داشت که معادل تقریباً 3000 کلمه است. GPT-4 دو نوع دارد، یکی با 8192 توکن (6000 کلمه) و دیگری با 32768 توکن (24000 کلمه).
آیا علاقه مند به یادگیری بیشتر در مورد تأثیر هوش مصنوعی بر دنیای کار هستید؟ اعضای VC+ به این ارسال ویژه و همچنین کل آرشیو محتوای VC+ ما دسترسی دارند. اطلاعات بیشتر. |