تصویر توسط نویسنده
اگر فکر میکردید همه چیز درباره ChatGPT شنیدهاید، خب در اشتباهید. OpenAI مدلهای ChatGPT و Whisper خود را در API خود در دسترس قرار داده است و به توسعهدهندگان اجازه میدهد به زبان و قابلیتهای گفتار به نوشتار مبتنی بر هوش مصنوعی دسترسی داشته باشند.
بیایید ابتدا یک قدم به عقب برداریم. ممکن است برخی از شما ندانید ChatGPT یا Whisper چیست. بنابراین اجازه دهید یک تفکیک ساده به شما بدهم.
ChatGPT یک سیستم چت بات مبتنی بر هوش مصنوعی است که توسط OpenAI در نوامبر 2022 راه اندازی شد. این سیستم از ترانسفورماتور از پیش آموزش داده شده 3 (GPT-3) و یک مدل زبان خودبازگشت استفاده می کند که متنی شبیه انسان تولید می کند. این یک مدل هوش مصنوعی پردازش زبان است که به گونهای آموزش داده شده است که بتواند پیشبینی کند کد بعدی چیست.
نمونه هایی از کارهایی که ChatGPT می تواند انجام دهد این است
- محتوای طولانی از مقاله تا مقاله بنویسید.
- شعرهای کوتاه و لیمریک بنویسید
- موضوعات پیچیده را به اصطلاحات غیرمعمول تقسیم کنید
- به شما در برنامه ریزی و سازماندهی جلسات، تعطیلات و موارد دیگر کمک می کند.
- ارتباط شخصی
اگر می خواهید درباره ChatGPT بیشتر بدانید، این مقالات را بررسی کنید:
ChatGPT API
خانواده مدل ChatGPT به عنوان نسخه OpenAI گسترش یافته است: gpt-3.5-turbo. این مدل جدید با قیمت 0.002 دلار به ازای هر هزار توکن، 10 برابر ارزان تر از مدل های GPT-3.5 موجود است.
مدلهای GPT بهطور سنتی از متن بدون ساختار استفاده میکنند، که سپس به عنوان دنبالهای از نشانهها نشان داده میشود. با این حال، با ChatGPT، مدل از دنباله ای از پیام ها همراه با ابرداده استفاده می کند.
در سپتامبر 2022، OpenAI Whisper – یک سیستم تشخیص خودکار گفتار (ASR) را معرفی کرد. مدل گفتار به متن منبع باز است و از طرف جامعه توسعه دهندگان مورد تحسین قرار گرفته است.
بر روی 680000 ساعت مجموعه داده های بزرگ که حاوی فایل های صوتی متنوع و چند زبانه هستند آموزش دیده است. این مدل همچنین دارای قابلیت چندوظیفه ای است و می تواند تشخیص گفتار چند زبانه، ترجمه گفتار و شناسایی زبان را انجام دهد. این مجموعه داده های بزرگ، داده های نظارت شده ای هستند که از وب جمع آوری شده اند.
وظایف ذکر شده در بالا به عنوان دنباله ای از توکن ها با هم نشان داده می شوند تا رمزگشا بتواند روی آنها پیش بینی کند. پیوستن به این وظایف به طور طبیعی چندین مرحله را که به طور معمول در خط لوله پردازش گفتار سنتی رخ می دهد حذف می کند. این می تواند فایل ها را با فرمت های مختلف مانند M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM بگیرد.
در زیر تصویری از رویکرد Whisper OpenAI آمده است:
تصویر از OpenAI GitHub
Whisper API
OpenAI به نیازهای مصرف کننده خود گوش داد و در نظر گرفت که اجرای Whisper چقدر می تواند سخت باشد. بنابراین، آنها اکنون یک مدل بزرگ v2 دارند که از طریق API آنها در دسترس است که دسترسی راحت بر اساس تقاضا را فراهم می کند. این قیمت 0.006 دلار در دقیقه خواهد بود.
کاربران همچنین از پشته سرویس بسیار بهینه شده OpenAI بهره خواهند برد که عملکرد سریعی را ارائه می دهد.
OpenAI توانست هزینه ChatGPT را تا 90٪ کاهش دهد و به نظر می رسد که این صرفه جویی در هزینه ها اکنون فرصت های بیشتری را برای کاربران API ایجاد کرده است. آنها می خواستند به توسعه دهندگان امکان دسترسی به زبان پیشرفته و قابلیت های گفتار به متن را بدهند.
توسعه دهندگان اکنون می توانند از مدل منبع باز OpenAI Whisper large-v2 استفاده کنند که نتایج بسیار سریعتر و مقرون به صرفه را ارائه می دهد. در رابطه با ChatGPT، این مدل به پیشرفتهای مستمری ادامه میدهد که کاربران API از آن بهره خواهند برد و همچنین کنترل عمیقتری بر مدلهای خود خواهند داشت.
پس از دریافت بازخورد از توسعه دهندگان، OpenAI تغییرات خاصی را برای کمک به توسعه دهندگان ایجاد کرد:
- بهبود در اسناد توسعه دهنده
- دادههایی که از طریق API ارسال میشوند برای بهبود خدمات استفاده نمیشوند مگر اینکه شما آن را انتخاب کنید.
- یک سیاست حفظ 30 روزه با گزینه نگهداری دقیق تر بسته به نیاز.
به جای استفاده از رویکرد زبان فعلی OpenAI، ChatGPT و Whisper APIها به توسعه دهندگان شخص ثالث اجازه می دهند تا به راحتی آنها را در سیستم عامل خود ادغام کنند.
نمونه های اختصاصی
OpenAI همچنین نمونه های اختصاصی را برای کاربرانی ارائه می دهد که به کنترل عمیق تری بر نسخه مدل و عملکرد سیستم خود نیاز دارند. توسعهدهندگان براساس دوره زمانی پرداخت خواهند کرد و زیرساختهای محاسباتی که نیازهای آنها را برآورده میکند به آنها اختصاص داده میشود. این برای توسعه دهندگانی که قصد دارند 450 میلیون توکن در روز اجرا کنند، بسیار منطقی است.
آنها کنترل کامل بار نمونه ها، گزینه فعال کردن ویژگی ها و پین کردن عکس فوری مدل را خواهند داشت. نه تنها هزینه های توسعه دهنده را کاهش می دهد، بلکه روند آنها را موثرتر می کند.
انتظار می رود راه اندازی ChatGPT و Whisper API تأثیر عمیقی بر جامعه توسعه دهندگان داشته باشد. این ابزارها و قابلیت های پیشرفته ای را در اختیار توسعه دهندگان قرار می دهد و به آنها اجازه می دهد برنامه های بهتر، پیشرفته و مبتنی بر زبان بسازند.
نیشا آریا دانشمند داده، نویسنده فنی آزاد و مدیر انجمن در KDnuggets است. او به ویژه علاقه مند به ارائه مشاوره شغلی یا آموزش های علم داده و دانش مبتنی بر نظریه در مورد علم داده است. او همچنین مایل است راههای مختلفی را که هوش مصنوعی میتواند به طول عمر انسان کمک کند، کشف کند. یک یادگیرنده مشتاق که به دنبال گسترش دانش فنی و مهارت های نوشتاری خود است و در عین حال به راهنمایی دیگران کمک می کند.