ChatGPT چقدر هوشمند است؟

تجسم عملکرد ChatGPT در امتحانات انسانی

ChatGPT، یک مدل زبان که توسط OpenAI توسعه یافته است، در طول سال گذشته به دلیل توانایی آن در ایجاد پاسخ‌های انسان‌مانند در طیف وسیعی از شرایط، بسیار محبوب شده است.

در واقع، ChatGPT آنقدر توانمند شده است که دانش آموزان اکنون از آن برای کمک به تکالیف خود استفاده می کنند. این امر باعث شده است که چندین منطقه آموزشی ایالات متحده مانع از دسترسی دستگاه‌ها به مدل در هنگام استفاده از شبکه خود شوند.

بنابراین، ChatGPT چقدر هوشمند است؟

در یک گزارش فنی که در 27 مارس 2023 منتشر شد، OpenAI خلاصه‌ای جامع از جدیدترین مدل خود، معروف به GPT-4 ارائه کرد. مجموعه ای از نتایج امتحان در این گزارش گنجانده شده است که در نمودار بالا به تصویر کشیده شده است.

GPT-4 در مقابل GPT-3.5

برای محک زدن قابلیت‌های ChatGPT، OpenAI آزمون‌های مختلف حرفه‌ای و آکادمیک را شبیه‌سازی کرد. این شامل آزمون‌های SAT، آزمون وکالت و فینال‌های مختلف قرارگیری پیشرفته (AP) می‌شود.

عملکرد در اندازه گیری شد صدک هاکه بر اساس آخرین توزیع‌های امتیازی موجود برای شرکت‌کنندگان در هر نوع آزمون بود.

امتیاز دهی درصدی روشی برای رتبه بندی عملکرد فرد نسبت به عملکرد دیگران است. به عنوان مثال، اگر در یک آزمون در صدک 60 قرار گرفتید، به این معنی است که نمره بالاتر از 60 درصد از شرکت کنندگان در آزمون را کسب کرده اید.

جدول زیر نتایجی را که در نمودار مشاهده کرده ایم فهرست می کند.

دسته بندی	امتحان	GPT-4 صدک	GPT-3.5 صدک
قانون	آزمون یکنواخت وکالت	90	10
قانون	LSAT	88	40
SAT	خواندن و نوشتن مبتنی بر شواهد	93	87
SAT	ریاضی	89	70
آزمون سوابق تحصیلات تکمیلی (GRE)	کمی	80	25
آزمون سوابق تحصیلات تکمیلی (GRE)	کلامی	99	63
آزمون سوابق تحصیلات تکمیلی (GRE)	نوشتن	54	54
قرار دادن پیشرفته (AP)	زیست شناسی	85	62
قرار دادن پیشرفته (AP)	حساب دیفرانسیل و انتگرال	43	0
قرار دادن پیشرفته (AP)	علم شیمی	71	22
قرار دادن پیشرفته (AP)	فیزیک 2	66	30
قرار دادن پیشرفته (AP)	روانشناسی	83	83
قرار دادن پیشرفته (AP)	آمار	85	40
قرار دادن پیشرفته (AP)	زبان انگلیسی	14	14
قرار دادن پیشرفته (AP)	ادبیات انگلیسی	8	8
برنامه نویسی رقابتی	رتبه بندی Codeforces

نمرات گزارش شده در بالا برای GPT-4 با ورودی های بصری فعال است. لطفاً گزارش فنی OpenAI را برای نتایج جامع‌تر ببینید.

همانطور که می بینیم، GPT-4 (منتشر شده در مارس 2023) در اکثر این آزمون ها بسیار توانمندتر از GPT-3.5 (منتشر شده در مارس 2022) است. با این حال، قادر به بهبود آن نبود AP انگلیسی و در برنامه نویسی رقابتی.

در مورد AP English (و سایر آزمون‌هایی که پاسخ‌های کتبی مورد نیاز بود)، موارد ارسالی ChatGPT توسط «1-2 پیمانکار شخص ثالث واجد شرایط با تجربه کاری مرتبط در رتبه‌بندی آن مقالات» درجه‌بندی شدند. در حالی که ChatGPT مطمئناً قادر به تولید مقالات کافی است، ممکن است در درک نکات امتحان دچار مشکل شده باشد.

برای برنامه نویسی رقابتی، GPT 10 مسابقه Codeforces را 100 بار انجام داد. Codeforces میزبان مسابقات برنامه نویسی رقابتی است که در آن شرکت کنندگان باید مسائل پیچیده را حل کنند. میانگین امتیاز Codeforces GPT-4 392 است (زیر صدک 5)، در حالی که بالاترین آن در یک مسابقه منفرد حدود 1300 بود. با ارجاع به صفحه رتبه بندی Codeforces، کاربر دارای امتیاز برتر است به طرز عجیبی از چین با رتبه 3841.

چه چیزی با GPT-4 تغییر کرده است؟

در اینجا مواردی وجود دارد که GPT-4 تجربه کاربری را نسبت به GPT-3.5 بهبود بخشیده است.

دسترسی به اینترنت و پلاگین ها

یک عامل محدود کننده GPT-3.5 این بود که به اینترنت دسترسی نداشت و فقط تا ژوئن 2021 بر روی داده ها آموزش دیده بود.

با GPT-4، کاربران به پلاگین های مختلفی دسترسی خواهند داشت که ChatGPT را برای دسترسی به اینترنت، ارائه پاسخ های به روزتر و انجام طیف وسیع تری از وظایف، توانمند می کند. این شامل افزونه‌های شخص ثالث از سرویس‌هایی مانند Expedia است که ChatGPT را قادر می‌سازد تا کل تعطیلات را برای شما رزرو کند.

ورودی های بصری

در حالی که GPT-3.5 فقط می تواند ورودی های متن را بپذیرد، GPT-4 توانایی تجزیه و تحلیل تصاویر را نیز دارد. کاربران می توانند از ChatGPT بخواهند که یک عکس را توصیف کند، نمودار را تجزیه و تحلیل کند یا حتی یک میم را توضیح دهد.

طول زمینه بیشتر

در نهایت، GPT-4 قادر است حجم بسیار بیشتری از متن را مدیریت کند و مکالمات را برای مدت طولانی تری ادامه دهد. برای مرجع، GPT-3.5 حداکثر مقدار درخواستی 4096 توکن داشت که معادل تقریباً 3000 کلمه است. GPT-4 دو نوع دارد، یکی با 8192 توکن (6000 کلمه) و دیگری با 32768 توکن (24000 کلمه).

تصویر تبلیغاتی از ارسال ویژه در مورد هوش مصنوعی و آینده کار با یک ربات انسان نما که توسط آرم ChatGPT، آرم Midjourney، آرم Bing و لوگوی Google Bard احاطه شده است.

آیا علاقه مند به یادگیری بیشتر در مورد تأثیر هوش مصنوعی بر دنیای کار هستید؟ اعضای VC+ به این ارسال ویژه و همچنین کل آرشیو محتوای VC+ ما دسترسی دارند. اطلاعات بیشتر.

برچسب ها: chat gpt ChatGPT

ChatGPT چقدر هوشمند است؟

چرا ChatGPT در برخی از زبان ها بیشتر از دیگران دروغ می گوید

خرده فروشان از ChatGPT برای کمک به مردم در انتخاب خرید استفاده می کنند

خرده فروشان از ChatGPT برای کمک به مردم در انتخاب خرید استفاده می کنند

دیدگاهتان را بنویسید لغو پاسخ

You might also like

هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

صندلی هیئت مدیره OpenAi ، برت تیلور می گوید ما در یک حباب هوش مصنوعی هستیم (اما اشکالی ندارد)

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT چقدر هوشمند است؟

تجسم عملکرد ChatGPT در امتحانات انسانی

GPT-4 در مقابل GPT-3.5

چه چیزی با GPT-4 تغییر کرده است؟

دسترسی به اینترنت و پلاگین ها

ورودی های بصری

طول زمینه بیشتر

چرا ChatGPT در برخی از زبان ها بیشتر از دیگران دروغ می گوید

خرده فروشان از ChatGPT برای کمک به مردم در انتخاب خرید استفاده می کنند

خرده فروشان از ChatGPT برای کمک به مردم در انتخاب خرید استفاده می کنند

دیدگاهتان را بنویسید لغو پاسخ

You might also like

هوش مصنوعی آگاهانه APAS RADAR برای خلبانان دریایی: آزمایش

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

صندلی هیئت مدیره OpenAi ، برت تیلور می گوید ما در یک حباب هوش مصنوعی هستیم (اما اشکالی ندارد)

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید