چت GPT دقیقاً از چه چیزی یاد می گیرد؟
به روز شده: 20 فوریه 2023 ساعت 11:34 صبح
اگر با ChatGPT آشنایی دارید، ممکن است شنیده باشید که بر روی مجموعه وسیعی از داده ها آموزش داده شده است. اما معنی دقیق این چیست؟ در این مقاله، ما به پیچیدگیهای نحوه آموزش ChatGPT خواهیم پرداخت؟
ChatGPT یک مدل زبان از پیش آموزش دیده است که از طریق ترکیبی از تکنیک های یادگیری تحت نظارت و تقویتی تنظیم شده است. فرآیند آموزش ChatGPT شامل وارد کردن حجم زیادی از داده های متنی به مدل و تنظیم پارامترهای آن به طوری که می تواند متنی مشابه متن موجود در مجموعه آموزشی تولید کند.
رویکرد یادگیری بدون نظارت برای این فرآیند مورد استفاده قرار گرفت، به این معنی که به مدل بازخورد صریح درباره درست یا نادرست بودن متن تولید شده آن داده نشد. در عوض، مدل پارامترهای خود را بر اساس احتمال مشابه بودن متن تولید شده با متن موجود در مجموعه آموزشی تنظیم می کند.
GPT-3، مدل مادر ChatGPT-3، یکی از بزرگترین مدل های زبانی است که تا کنون ساخته شده است، با 175 میلیارد پارامتر و زمینه 2048 توکن طولانی. این برنامه بر روی صدها میلیارد کلمه از Common Crawl، WebText2، Books1/2، Wikipedia به زبان انگلیسی و نمونه هایی از کد در CSS، JSX، Python و سایر زبان های برنامه نویسی آموزش داده شده است.
روش آموزشی مورد استفاده برای GPT-3، پیشآموزش مولد است، به این معنی که برای پیشبینی نشانه یا کلمه بعدی در جمله ورودی آموزش داده شده است.
الان بخوان: بهترین جایگزین چت GPT
یادگیری تحت نظارت
مدل ChatGPT از طریق فرآیند یادگیری تحت نظارت توسط مربیان انسانی تنظیم شد. این مربیان درگیر مکالمات شدند و نقش کاربر و دستیار هوش مصنوعی را بر عهده گرفتند.
به آنها پیشنهادهایی از مدل داده شد تا آنها را در نوشتن پاسخهایشان راهنمایی کند، که سپس با مجموعه داده InstructGPT که به قالب گفتگو تبدیل شده بود، ترکیب شدند.
یادگیری تقویتی
این مدل از طریق یادگیری تقویتی با استفاده از بهینه سازی سیاست پروگزیمال (PPO) بیشتر بهبود یافت. مربیان انسانی پاسخ های ایجاد شده توسط مدل را از یک مکالمه قبلی ارزیابی کردند و از آن ارزیابی ها برای توسعه مدل های پاداش استفاده کردند. سپس این مدل بر اساس این مدلهای پاداش تنظیم شد.
فرآیند تنظیم دقیق چندین بار برای دستیابی به عملکرد بهتر انجام شد. الگوریتم های PPO در مقایسه با سایر الگوریتم ها مقرون به صرفه هستند و عملکرد سریع تری دارند که آنها را برای این فرآیند ایده آل می کند.
OpenAI به جمعآوری اطلاعات از کاربرانی که با ChatGPT تعامل دارند، ادامه میدهد، که سپس میتواند برای بهبود و اصلاح بیشتر مدل مورد استفاده قرار گیرد.
کاربران این امکان را دارند که به پاسخهای ChatGPT با رأی مثبت یا منفی رأی دهند و همچنین فرصت ارائه بازخورد اضافی را دارند. این داده ها برای بهبود بیشتر عملکرد مدل و بهتر کردن آن در تولید متن انسان مانند استفاده می شود.
داده های مورد استفاده برای آموزش مدل
ChatGPT-3 یک مدل زبان است که از سری GPT-3.5 تنظیم شده است که با استفاده از زیرساخت ابر محاسباتی هوش مصنوعی Azure آموزش داده شده است. این آموزش بر روی حجم عظیمی از متن های خراشیده شده از اینترنت، شامل کتاب ها، انجمن های گفتگو، مقالات، وب سایت ها، مقالات دانشگاهی، کد و منابع دیگر آموزش داده شده است.
حجم مجموعه دادههای متنی مورد استفاده برای آموزش ChatGPT-3 بیش از 45 ترابایت بود که بسیار بزرگ است و به توانایی مدل برای تولید متنهایی شبیه به آنچه یک روزنامهنگار یا نویسنده ممکن است تولید کند کمک میکند.