جایگزین های متن باز ChatGPT به سرعت در حال فرود هستند

مدل هایی که چت ربات های هوش مصنوعی OpenAI را تامین می کنند یک جعبه سیاه هستند. اما جایگزین‌های متن‌باز و رایگان ChatGPT که به مدیران ارشد فناوری و تیم‌های داده‌شان اجازه می‌دهد تا مدل‌ها را برای موارد استفاده سفارشی تنظیم کنند، به سرعت در حال فرود هستند – و حتی اگر بسیاری از آنها فقط مجوزهای تحقیقاتی داشته باشند، مسیر روشنی را به سوی جایگزین‌های خودساخته پیشنهاد می‌کنند.

این هفته Colossal-AI، استارت آپی به رهبری پروفسور یانگ یو، دانشگاه ملی سنگاپور، به آنها ملحق شد و یک مدل زبان بزرگ (LLM) و ربات چت با نام “ColossalChat” را تحت مجوز Apache 2.0 منبع باز تهیه کرد. شما گفتید که این مدل فقط به 10 میلیارد پارامتر* برای دستیابی به مهارت دو زبانه در زبان انگلیسی و چینی نیاز دارد که نتایج آن با GPT-3.5 قابل مقایسه است. در حال حاضر بیش از 23000 ستاره و 2600 ستاره در GitHub دارد.

او Colossal-AI را به عنوان “اولین منبع باز یک RLHF کامل” توصیف کرد [“reinforcement learning with human feedback”] خط لوله ای که شامل جمع آوری داده های نظارت شده، تنظیم دقیق نظارت شده، آموزش مدل پاداش و تنظیم دقیق یادگیری تقویتی، بر اساس مدل از پیش آموزش دیده LLaMA» و ColossalChat به عنوان «کاربردی ترین پروژه منبع باز است که شباهت زیادی به ChatGPT فنی اصلی دارد. راه حل!”

آموزش آن همچنین از 100000 جفت پرسش و پاسخ به دو زبان انگلیسی و چینی استفاده کرد که «از سناریوهای سؤالات واقعی در پلتفرم‌های رسانه‌های اجتماعی جمع‌آوری و پاک شدند، به عنوان مجموعه داده اولیه» و سپس «با استفاده از فناوری خودآموزی و هزینه‌های حاشیه‌نویسی گسترش یافتند». [that] تقریباً 900 دلار بود.» شما اضافه کردید که آموزش استنتاج فقط به 4 گیگابایت حافظه GPU و “قدرت محاسباتی کمی روی یک سرور واحد” نیاز دارد.

این هفته Datastax همچنین با منبع باز Dolly، یک LLM که گفت: «درجه شگفت‌انگیز از دستورالعمل‌های زیر قابلیت‌های ارائه‌شده توسط ChatGPT را نشان می‌دهد»، و اضافه کرد: «ما در اولین روزهای دموکراتیزه‌سازی هوش مصنوعی برای شرکت هستیم، و کارهای زیادی انجام می‌دهیم. هنوز باید انجام شود، اما ما معتقدیم فناوری زیربنای دالی یک فرصت جدید و هیجان انگیز برای شرکت هایی است که می خواهند مدل های خود را با قیمت ارزان بسازند.

(مجموعه داده زیربنایی Alpaca تحت یک مجوز غیرتجاری Creative Commons مجوز دارد.)

«دلایل زیادی برای» جایگزین های متن باز ChatGPT

Datastax که مجموعه‌ای از ابزارهای منبع باز را برای ساخت، استقرار، اشتراک‌گذاری و نگهداری راه‌حل‌های داده در سطح سازمانی ارائه می‌کند، می‌گوید: «دلایل زیادی وجود دارد که یک شرکت ترجیح می‌دهد مدل خود را به جای ارسال داده به یک ارائه‌دهنده متمرکز LLM بسازد. که یک مدل اختصاصی در پشت یک API ارائه می کند.

برای بسیاری از شرکت‌ها، مشکلات و مجموعه داده‌هایی که به احتمال زیاد از هوش مصنوعی بهره می‌برند، حساس‌ترین و اختصاصی‌ترین مالکیت معنوی آن‌ها را نشان می‌دهد و واگذاری آن به شخص ثالث ممکن است ناخوشایند باشد. علاوه بر این، سازمان ها ممکن است از نظر کیفیت مدل، هزینه و رفتار مطلوب، معاوضه های متفاوتی داشته باشند. ما بر این باوریم که اکثر کاربران ML با داشتن مستقیم مدل‌هایشان در درازمدت بهترین خدمات را دارند.» این شرکت در 24 مارس اضافه کرد.

دالی بر روی پلتفرم یادگیری ماشین Databricks با استفاده از یک مدل منبع باز دو ساله (GPT-J) آموزش دیده بود که «تنها در معرض 30 دقیقه تنظیم دقیق روی مجموعه متمرکز 50 هزار رکورد (استنفورد آلپاکا) بود.

کوچک زیباست؟

انتشار هوش مصنوعی عظیم با کمک LLaMA، مجموعه‌ای از مدل‌های زبان بزرگ (LLM) از 7 تا 65 میلیارد پارامتر که توسط متا در ماه فوریه تحت یک مجوز تحقیقاتی غیرتجاری منتشر شد، انجام شد. (متا در آن زمان اشاره کرد که بر خلاف [DeepMind’s] چینچیلا، [Google’s] پالم، یا [OpenAI’s] GPT-3، ما فقط از داده‌های در دسترس عموم استفاده می‌کنیم و کارمان را با منبع باز سازگار می‌کنیم، در حالی که اکثر مدل‌های موجود به داده‌هایی متکی هستند که در دسترس عموم نیستند یا مستند نیستند (مانند «کتاب‌ها – ۲ ترابایت» یا «مکالمات رسانه‌های اجتماعی»).

ColossalChat که در 29 مارس منتشر شد، شامل یک خط لوله کامل “یادگیری تقویتی با بازخورد انسانی” (RLHF) است که به گفته پروفسور شما شامل جمع آوری داده های نظارت شده، تنظیم دقیق نظارت شده، آموزش مدل پاداش و تنظیم دقیق یادگیری تقویتی است. او در یک پست Medium آن را به عنوان “اولین پروژه منبع باز عملی که شامل یک فرآیند کامل RLHF برای تکرار مدل های مشابه ChatGPT است” توصیف کرد.

دکتر پیتر ون در پوتن، مدیر آزمایشگاه هوش مصنوعی در Pegasystems: «تا همین اواخر، رقابت در مدل‌های زبان بزرگ بر سر این بود که چه کسی می‌تواند بزرگترین مدل‌ها را بسازد. اوایل این ماه، Huaewei مدل PanGu-Σ را منتشر کرد، مدلی با پارامتر 1.08 تریلیون… اما روند دیگری از هوش مصنوعی وجود دارد که در حال افزایش است – کوچکتر زیباست.

حدود یک ماه پیش زمانی شروع شد که متا LlaMA را منتشر کرد… دنباله‌ای از مدل‌های کوچک به سرعت دنبال شد – همه از LlaMA مشتق شده‌اند – با نام‌های رنگارنگی مانند Alpaca، Alpaca-LoRA، و CollossalChat… از آنجایی که LlaMA محدود به استفاده غیرتجاری است. همین امر در مورد سایر مدل ها نیز صدق می کند، اما نسخه های بازتر دیگری مانند OpenChatKit وجود داشته است [a set of models trained on the OIG-43M training dataset; a collaboration between Together, LAION, and Ontocord.ai] و دالی، با دومی فقط یک روکش آموزشی بسیار نازک روی GPT-J.

«پیامد این روند چیست؟

او گفت: «با یک تیم کوچک علم داده و صدها تا هزاران محاسباتی، می‌توانید مدل‌هایی مانند این‌ها را برای موارد استفاده خود میزبانی و تنظیم کنید، همانطور که برای بسیاری از آنها، پیش‌آموزش از ابتدا هنوز بسیار پرهزینه است.

«ممکن است ارزش آن را داشته باشد که برای مثال داده‌های شما حساس و/یا اختصاصی باشد، زیرا نیازی به تماس با سرویس‌های خارجی ندارید. گفته می‌شود، برای چند مورد استفاده، اشتراک‌گذاری درخواست‌ها با یک سرویس مرکزی قابل قبول خواهد بود، و فروشندگان ابری به مشتریان اجازه می‌دهند تا مدل‌های پایه پایه را بدون به اشتراک گذاشتن داده‌های تنظیم دقیق با مدل‌های پایه، تنظیم دقیق کنند. و برای ساده سازی بیشتر، بسیاری از موارد استفاده را می توان از طریق مهندسی سریع خودکار هوشمندانه و بدون هیچ گونه تنظیم دقیق به دست آورد.

وی افزود: به عنوان مثال، ما [Pegasystems] یک ربات گفتگوی دامنه بسته ساخته شده است که می تواند به انواع سؤالات در مورد نرم افزار ما، بر اساس مستندات محصول ما، بدون تنظیم یا آموزش پاسخ دهد. حتی بسیاری از گواهینامه های دوره های محصول ما را نیز گذرانده است. در نهایت، ارزش در ایجاد برنامه های خاص برای موارد استفاده خاص است.

خوب، لطفاً دوباره موضوع “پارامترها” را توضیح دهید؟

کلمه “پارامترها” تقریباً برای LLM ها به کار می رود. واقعا به چه چیزی اشاره دارد؟

ما از Victor Botev، مدیر ارشد فناوری و یکی از بنیانگذاران Iris AI (استارت آپی برنده جایزه که یک موتور هوش مصنوعی برای درک متون علمی به همراه یک مجموعه نرم افزار ماژولار ارائه می دهد) برای توضیح دهنده خود درخواست کردیم. در اینجا نحوه بیان او آمده است.

“پارامترها” ضرایب ریاضی در یک مدل یادگیری ماشینی هستند که به طور مستقل از داده های آموزشی تاریخی یاد می گیرند. در NLP، آنها نشان دهنده احتمال ظاهر شدن یک ویژگی خاص از متن، به چه ترتیب، با استفاده از کدام کاراکتر و غیره هستند. با تنظیم پارامترهای خود در سطوح مختلف، می‌توانید ساختار زیربنایی یک مدل را برای تطبیق بهتر داده‌ها و ارائه پاسخ‌های دقیق‌تر تنظیم کنید. هر پارامتر را به عنوان یک نوار لغزنده در یک میز بزرگ میکس صدا در نظر بگیرید – به جز، در این مورد، ممکن است میلیاردها لغزنده وجود داشته باشد.

هر پارامتر به مدل می‌گوید که چقدر احتمال دارد که در پاسخ به یک دستور داده شده از نشانه‌های نقطه‌گذاری، اعداد، کاراکترهای خاص، اسم‌ها، افعال، صفت‌ها و سایر ویژگی‌های متن استفاده کند و در چه فرکانسی این کار را انجام دهد. تعداد پارامترها در طول تاریخ به عنوان راهی برای ردیابی مهارت یک مدل زبان در یک کار خاص استفاده شده است. در واقع، آنها اغلب به عنوان یک معیار رقابتی استفاده می شوند: “مدل ما دارای 100 میلیارد پارامتر است، در حالی که مدل رقیب ما فقط 25 میلیارد پارامتر دارد، و بنابراین مدل ما در فلان کار بهتر است.”

وقتی گفته می شود یک مدل دارای ‘X میلیارد پارامتر’ است، معنای واقعی آن این است که، هر بار که درخواستی را ارسال می کنید، تمام پارامترهای ‘X میلیارد’ برای ایجاد پاسخ استفاده می شود. در حالت ایده آل، این بدان معنی است که شما پاسخ بهتر و دقیق تری دریافت می کنید. برخی از شرکت‌ها این دیدگاه را اتخاذ می‌کنند که «هرچه بزرگ‌تر، بهتر» و تعداد پارامترهای مدل و توانایی آن برای تولید متن را به عنوان یک رابطه خطی در نظر می‌گیرند.

با این حال، این یک نکته مهم را از دست می دهد. هر چه یک مدل پارامترهای بیشتری داشته باشد، در کارهای خاص بهتر عمل می کند – و تولید متن به هیچ وجه یک کار واحد نیست. این شامل بسیاری از بخش‌های مختلف است، مانند ابهام‌زدایی از مرز جمله، برچسب‌گذاری بخشی از گفتار، و ابهام‌زدایی از معنای کلمه، بدون ذکر اعتبار واقعی. تعداد بسیار زیاد پارامترها ممکن است به یک مدل زبان (یا مدل زبان بزرگ، LLM) زمینه و آموزش ایجاد کند تا در پاسخ به اکثر درخواست‌ها، متنی قابل قبول و «با صدای انسانی» تولید کند. این به این دلیل است که می‌تواند با دقت بالایی پیش‌بینی کند که واکنش انسان چگونه خواهد بود – اما کمیت با کیفیت برابری نمی‌کند.

احتمال اینکه این پاسخ‌ها حاوی خطاهای واقعی باشند همچنان بالاست مگر اینکه داده‌های با کیفیت بالا برای آموزش این پارامترها وجود داشته باشد. از آنجایی که پارامترهای بیشتر به این معنی است که شما به مثال‌های بیشتری نیاز دارید، در نتیجه باید زمینه بیشتری را به داده‌های آموزشی خود اضافه کنید تا اطمینان حاصل کنید که انتزاعات مدل‌ها از واقعیت‌های دقیقی که باید تولید کنند، دور نخواهند شد.

برچسب ها: chat gpt ChatGPT

جایگزین های متن باز ChatGPT به سرعت در حال فرود هستند

سام آلتمن، مدیر عامل ChatGPT قصد دارد از هند بازدید کند. بدانید که چرا

آیا دولت برای ساخت نسخه هندی ChatGPT کار می کند؟ این چیزی است که ما می دانیم

آیا دولت برای ساخت نسخه هندی ChatGPT کار می کند؟ این چیزی است که ما می دانیم

دیدگاهتان را بنویسید لغو پاسخ

You might also like

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

صندلی هیئت مدیره OpenAi ، برت تیلور می گوید ما در یک حباب هوش مصنوعی هستیم (اما اشکالی ندارد)

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

چرا معامله اوراکل-اوپنای با تعجب وال استریت را گرفتار کرد

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

جایگزین های متن باز ChatGPT به سرعت در حال فرود هستند

«دلایل زیادی برای» جایگزین های متن باز ChatGPT

کوچک زیباست؟

«پیامد این روند چیست؟

خوب، لطفاً دوباره موضوع “پارامترها” را توضیح دهید؟

سام آلتمن، مدیر عامل ChatGPT قصد دارد از هند بازدید کند. بدانید که چرا

آیا دولت برای ساخت نسخه هندی ChatGPT کار می کند؟ این چیزی است که ما می دانیم

آیا دولت برای ساخت نسخه هندی ChatGPT کار می کند؟ این چیزی است که ما می دانیم

دیدگاهتان را بنویسید لغو پاسخ

You might also like

برنامه نویسی Vibe Devs Senior را به “بچه های AI” تبدیل کرده است ، اما آنها می گویند ارزش آن را دارد

صندلی هیئت مدیره OpenAi ، برت تیلور می گوید ما در یک حباب هوش مصنوعی هستیم (اما اشکالی ندارد)

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

چرا معامله اوراکل-اوپنای با تعجب وال استریت را گرفتار کرد

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید