از زمان راهاندازی ChatGPT در نوامبر ۲۰۲۲، OpenAI توجه زیادی را از سوی کارکنان دانش، توسعهدهندگان و تقریباً همه کسانی که از اینترنت و وب استفاده میکنند، به خود جلب کرده است. اما، OpenAI برای مدت طولانی، حتی قبل از ایجاد ChatGPT وجود داشته است و خدمات هیجان انگیز زیادی را به توسعه دهندگان ارائه می دهد. این یکی از اولین شرکتهای پلتفرمی است که هوش مصنوعی مولد را از طریق نقاط پایانی ساده REST API در معرض دید قرار میدهد.
این اولین مقاله از سری مقالات OpenAI خواهد بود که در آن تصویر بزرگ OpenAI و نحوه ساختار پلتفرم را بررسی خواهیم کرد. ما پایه ها و بلوک های اساسی پلت فرم OpenAI را درک خواهیم کرد.
OpenAI: دموکراتیک کردن هوش مصنوعی مولد
OpenAI در سال 2015 به عنوان یک سازمان تحقیقاتی غیرانتفاعی توسط ایلیا سوتسکور، گرگ براکمن، ترور بلکول، ویکی چونگ، آندری کارپاتی، دورک کینگما، جان شولمن، پاملا واگاتا و وویچیچ زارمبا تاسیس شد. سم آلتمن و ایلان ماسک اعضای اولیه هیئت مدیره بودند.
OpenAI زمانی مورد توجه قرار گرفت که مایکروسافت یک میلیارد دلار سرمایه گذاری در سال 2019 و دور دیگری 10 میلیارد دلار در اوایل سال جاری اعلام کرد. Infosys و Khosla Ventures سرمایه گذاران شرکتی هستند، در حالی که Reid Hoffman، Peter Thiel و Jessica Livingston سرمایه گذاران فردی هستند.
اگرچه اغلب به دلیل تبدیل شدن از یک شرکت غیرانتفاعی به یک شرکت هوش مصنوعی تجاری مورد انتقاد قرار می گیرد، OpenAI در خط مقدم تحقیقات هوش مصنوعی مولد بوده است. به لطف مشارکت مایکروسافت، به زیرساخت های پیشرفته ای که توسط خدمات محاسباتی Azure ارائه می شود، دسترسی پیدا کرد.
بدون صرف زمان زیاد برای درک تاریخچه و تکامل OpenAI، بیایید به وضعیت فعلی شرکت نگاه کنیم.
مدلهای هوش مصنوعی مولد با مجموعه دادههای بزرگ مبتنی بر یادگیری بدون نظارت به نام مدلهای پایه آموزش داده میشوند. در سطح بالایی، OpenAI دارای سه مدل پایه اصلی است: GPT، DALL-E، و Whisper. GPT یکی از محبوب ترین مدل هایی است که برای مقابله با محتوای متنی آموزش دیده است. DALL-E می تواند تصاویر را بر اساس ورودی زبان طبیعی تولید کند. در نهایت، Whisper مدلی برای تبدیل گفتار به متن و ترجمه یک زبان به زبان دیگر است.
تمام موارد استفاده و سناریوهای هوش مصنوعی مولد پشتیبانی شده توسط OpenAI حول این سه مدل پایه می چرخد. از این میان، GPT به دلیل موفقیت ChatGPT، که توسط جدیدترین نسخه مدل – GPT-4 ارائه شده است، بیشترین توجه را به خود جلب کرد. انواع مختلفی از مدل GPT برای پشتیبانی از سناریوهایی مانند تکمیل کلمه، چت تعاملی، ویرایش، بازنویسی، خلاصهسازی و طبقهبندی متن وجود دارد. به طور مشابه، DALL-E را می توان برای ایجاد، ویرایش و ایجاد تغییراتی از تصاویر استفاده کرد. از مدل Whisper می توان برای رونویسی و ترجمه فایل های صوتی استفاده کرد.
برای سهولت در القای هوش مصنوعی مولد برای توسعه دهندگان، OpenAI چندین API همسو با موارد استفاده را در معرض دید قرار داده است. برای ادغام مدل هایی مانند GPT یا DALL-E، توسعه دهندگان باید کلید API را دریافت کرده و از آن برای دسترسی به نقاط پایانی Open AI REST استفاده کنند.
APIهای OpenAI، هوش مصنوعی مولد را با در دسترس ساختن پیشرفتهترین مدلهای زبان و بینش از طریق یک رابط ساده REST، دموکراتیزه کردند. هر توسعهدهندهای که با مصرف API آشنا باشد، میتواند قدرت هوش مصنوعی مولد را به برنامههای خود تزریق کند. آنها نه نیازی به درک ریاضیات پیچیده پشت شبکههای عصبی دارند و نه به زیرساختهای محاسباتی قدرتمند مبتنی بر CPU و GPUهای پیشرفته دسترسی دارند.
تنظیم دقیق مدلهای پایه OpenAI با مجموعه دادههای سفارشی و خصوصی امکانپذیر است. سپس میتوان از مدل تنظیمشده برای انجام استنتاج بر روی دادههای خصوصی استفاده کرد که ارزش هوش مصنوعی مولد را بهطور قابلتوجهی افزایش میدهد. OpenAI تنظیمات دقیق را به عنوان یک API نشان داده است که تنوع یک مدل پایه و یک مجموعه داده سفارشی را می پذیرد.
نمودار زیر نحوه ساختار پلت فرم OpenAI را به طور خلاصه نشان می دهد. پایین ترین لایه از مدل های فونداسیون تشکیل شده است، در حالی که لایه بعدی دارای طعم ها و تنوع های متعددی از مدل ها است که هر کدام برای یک مورد خاص بهینه شده اند. بالاترین لایه REST API است که مدل ها را از طریق نقاط پایانی شناخته شده نشان می دهد.
کاوش در اکوسیستم OpenAI
OpenAI ابزارها، SDK ها و خدمات را با هدف قرار دادن توسعه دهندگان و کاربران نهایی ساخته است. ChatGPT نمونه ای از سرویسی است که هدف آن کاربران نهایی است. OpenAI عمدتاً از ChatGPT برای دریافت بازخورد تعاملی از کاربران استفاده میکند که تا حد زیادی به بهبود مدل GPT کمک میکند. همچنین از ورودی و دستورات برای تجزیه و تحلیل نحوه تعامل کاربران با مدل استفاده می کند.
برای توسعه دهندگان، OpenAI یک زمین بازی دارد که به عنوان یک رابط تعاملی برای REST API عمل می کند. می توان از آن برای آزمایش نحوه پاسخگویی مدل های تنظیم شده به یک ورودی یا درخواست استفاده کرد. همچنین می توان از آن برای تغییر پارامترهایی که بر دقت و خلاقیت مدل ها تأثیر می گذارد استفاده کرد.
در حالی که استفاده از ابزاری مانند cURL برای فراخوانی REST API ساده است، OpenAI یک کتابخانه رسمی پایتون دارد که مصرف API را در محیط هایی مانند Jupyter Notebook آسان می کند. یک ابزار رسمی کتابخانه Node.js برای کسانی که علاقه مند به استفاده از جاوا اسکریپت هستند وجود دارد. جامعه OSS کتابخانه های مختلفی برای زبان هایی مانند C#، C++، Go، Kotlin و Swift ساخته است.
تصویر زیر فراخوانی API تکمیل شده از طریق cURL را نشان می دهد:
همین کار را می توان از طریق کتابخانه رسمی پایتون که توسط OpenAI نگهداری می شود انجام داد.
OpenAI همچنین ابزارها و کتابخانههایی را منتشر کرده است که کلمات را به نشانه تبدیل میکند – واحد ورودی اساسی مدلهای زبان بزرگ مانند GPT. این ابزارها به توسعه دهندگان کمک می کنند تا هزینه مصرف API OpenAI را ارزیابی کنند. هنگامی که کتابخانه پایتون را از طریق PIP نصب می کنید، یک ابزار CLI مفید برای آزمایش API نیز دریافت می کنید.
اگر توسعهدهنده Microsoft Azure هستید، میتوانید برای سرویس Azure OpenAI ثبت نام کنید که کاملاً با سرویسهای ابری مایکروسافت، مانند Active Directory، Virtual Networks، Role-based Access Controls و غیره ادغام شده است.
در قسمت بعدی این مجموعه نگاهی دقیق تر به مهندسی سریع و اهمیت آن در برخورد با GPT خواهیم داشت. گوش به زنگ باشید.