مدل هایی که چت ربات های هوش مصنوعی OpenAI را تامین می کنند یک جعبه سیاه هستند. اما جایگزینهای متنباز و رایگان ChatGPT که به مدیران ارشد فناوری و تیمهای دادهشان اجازه میدهد تا مدلها را برای موارد استفاده سفارشی تنظیم کنند، به سرعت در حال فرود هستند – و حتی اگر بسیاری از آنها فقط مجوزهای تحقیقاتی داشته باشند، مسیر روشنی را به سوی جایگزینهای خودساخته پیشنهاد میکنند.
این هفته Colossal-AI، استارت آپی به رهبری پروفسور یانگ یو، دانشگاه ملی سنگاپور، به آنها ملحق شد و یک مدل زبان بزرگ (LLM) و ربات چت با نام “ColossalChat” را تحت مجوز Apache 2.0 منبع باز تهیه کرد. شما گفتید که این مدل فقط به 10 میلیارد پارامتر* برای دستیابی به مهارت دو زبانه در زبان انگلیسی و چینی نیاز دارد که نتایج آن با GPT-3.5 قابل مقایسه است. در حال حاضر بیش از 23000 ستاره و 2600 ستاره در GitHub دارد.
او Colossal-AI را به عنوان “اولین منبع باز یک RLHF کامل” توصیف کرد [“reinforcement learning with human feedback”] خط لوله ای که شامل جمع آوری داده های نظارت شده، تنظیم دقیق نظارت شده، آموزش مدل پاداش و تنظیم دقیق یادگیری تقویتی، بر اساس مدل از پیش آموزش دیده LLaMA» و ColossalChat به عنوان «کاربردی ترین پروژه منبع باز است که شباهت زیادی به ChatGPT فنی اصلی دارد. راه حل!”
آموزش آن همچنین از 100000 جفت پرسش و پاسخ به دو زبان انگلیسی و چینی استفاده کرد که «از سناریوهای سؤالات واقعی در پلتفرمهای رسانههای اجتماعی جمعآوری و پاک شدند، به عنوان مجموعه داده اولیه» و سپس «با استفاده از فناوری خودآموزی و هزینههای حاشیهنویسی گسترش یافتند». [that] تقریباً 900 دلار بود.» شما اضافه کردید که آموزش استنتاج فقط به 4 گیگابایت حافظه GPU و “قدرت محاسباتی کمی روی یک سرور واحد” نیاز دارد.
این هفته Datastax همچنین با منبع باز Dolly، یک LLM که گفت: «درجه شگفتانگیز از دستورالعملهای زیر قابلیتهای ارائهشده توسط ChatGPT را نشان میدهد»، و اضافه کرد: «ما در اولین روزهای دموکراتیزهسازی هوش مصنوعی برای شرکت هستیم، و کارهای زیادی انجام میدهیم. هنوز باید انجام شود، اما ما معتقدیم فناوری زیربنای دالی یک فرصت جدید و هیجان انگیز برای شرکت هایی است که می خواهند مدل های خود را با قیمت ارزان بسازند.
(مجموعه داده زیربنایی Alpaca تحت یک مجوز غیرتجاری Creative Commons مجوز دارد.)
«دلایل زیادی برای» جایگزین های متن باز ChatGPT
Datastax که مجموعهای از ابزارهای منبع باز را برای ساخت، استقرار، اشتراکگذاری و نگهداری راهحلهای داده در سطح سازمانی ارائه میکند، میگوید: «دلایل زیادی وجود دارد که یک شرکت ترجیح میدهد مدل خود را به جای ارسال داده به یک ارائهدهنده متمرکز LLM بسازد. که یک مدل اختصاصی در پشت یک API ارائه می کند.
برای بسیاری از شرکتها، مشکلات و مجموعه دادههایی که به احتمال زیاد از هوش مصنوعی بهره میبرند، حساسترین و اختصاصیترین مالکیت معنوی آنها را نشان میدهد و واگذاری آن به شخص ثالث ممکن است ناخوشایند باشد. علاوه بر این، سازمان ها ممکن است از نظر کیفیت مدل، هزینه و رفتار مطلوب، معاوضه های متفاوتی داشته باشند. ما بر این باوریم که اکثر کاربران ML با داشتن مستقیم مدلهایشان در درازمدت بهترین خدمات را دارند.» این شرکت در 24 مارس اضافه کرد.
دالی بر روی پلتفرم یادگیری ماشین Databricks با استفاده از یک مدل منبع باز دو ساله (GPT-J) آموزش دیده بود که «تنها در معرض 30 دقیقه تنظیم دقیق روی مجموعه متمرکز 50 هزار رکورد (استنفورد آلپاکا) بود.
کوچک زیباست؟
انتشار هوش مصنوعی عظیم با کمک LLaMA، مجموعهای از مدلهای زبان بزرگ (LLM) از 7 تا 65 میلیارد پارامتر که توسط متا در ماه فوریه تحت یک مجوز تحقیقاتی غیرتجاری منتشر شد، انجام شد. (متا در آن زمان اشاره کرد که بر خلاف [DeepMind’s] چینچیلا، [Google’s] پالم، یا [OpenAI’s] GPT-3، ما فقط از دادههای در دسترس عموم استفاده میکنیم و کارمان را با منبع باز سازگار میکنیم، در حالی که اکثر مدلهای موجود به دادههایی متکی هستند که در دسترس عموم نیستند یا مستند نیستند (مانند «کتابها – ۲ ترابایت» یا «مکالمات رسانههای اجتماعی»).
ColossalChat که در 29 مارس منتشر شد، شامل یک خط لوله کامل “یادگیری تقویتی با بازخورد انسانی” (RLHF) است که به گفته پروفسور شما شامل جمع آوری داده های نظارت شده، تنظیم دقیق نظارت شده، آموزش مدل پاداش و تنظیم دقیق یادگیری تقویتی است. او در یک پست Medium آن را به عنوان “اولین پروژه منبع باز عملی که شامل یک فرآیند کامل RLHF برای تکرار مدل های مشابه ChatGPT است” توصیف کرد.
دکتر پیتر ون در پوتن، مدیر آزمایشگاه هوش مصنوعی در Pegasystems: «تا همین اواخر، رقابت در مدلهای زبان بزرگ بر سر این بود که چه کسی میتواند بزرگترین مدلها را بسازد. اوایل این ماه، Huaewei مدل PanGu-Σ را منتشر کرد، مدلی با پارامتر 1.08 تریلیون… اما روند دیگری از هوش مصنوعی وجود دارد که در حال افزایش است – کوچکتر زیباست.
حدود یک ماه پیش زمانی شروع شد که متا LlaMA را منتشر کرد… دنبالهای از مدلهای کوچک به سرعت دنبال شد – همه از LlaMA مشتق شدهاند – با نامهای رنگارنگی مانند Alpaca، Alpaca-LoRA، و CollossalChat… از آنجایی که LlaMA محدود به استفاده غیرتجاری است. همین امر در مورد سایر مدل ها نیز صدق می کند، اما نسخه های بازتر دیگری مانند OpenChatKit وجود داشته است [a set of models trained on the OIG-43M training dataset; a collaboration between Together, LAION, and Ontocord.ai] و دالی، با دومی فقط یک روکش آموزشی بسیار نازک روی GPT-J.
«پیامد این روند چیست؟
او گفت: «با یک تیم کوچک علم داده و صدها تا هزاران محاسباتی، میتوانید مدلهایی مانند اینها را برای موارد استفاده خود میزبانی و تنظیم کنید، همانطور که برای بسیاری از آنها، پیشآموزش از ابتدا هنوز بسیار پرهزینه است.
«ممکن است ارزش آن را داشته باشد که برای مثال دادههای شما حساس و/یا اختصاصی باشد، زیرا نیازی به تماس با سرویسهای خارجی ندارید. گفته میشود، برای چند مورد استفاده، اشتراکگذاری درخواستها با یک سرویس مرکزی قابل قبول خواهد بود، و فروشندگان ابری به مشتریان اجازه میدهند تا مدلهای پایه پایه را بدون به اشتراک گذاشتن دادههای تنظیم دقیق با مدلهای پایه، تنظیم دقیق کنند. و برای ساده سازی بیشتر، بسیاری از موارد استفاده را می توان از طریق مهندسی سریع خودکار هوشمندانه و بدون هیچ گونه تنظیم دقیق به دست آورد.
وی افزود: به عنوان مثال، ما [Pegasystems] یک ربات گفتگوی دامنه بسته ساخته شده است که می تواند به انواع سؤالات در مورد نرم افزار ما، بر اساس مستندات محصول ما، بدون تنظیم یا آموزش پاسخ دهد. حتی بسیاری از گواهینامه های دوره های محصول ما را نیز گذرانده است. در نهایت، ارزش در ایجاد برنامه های خاص برای موارد استفاده خاص است.
خوب، لطفاً دوباره موضوع “پارامترها” را توضیح دهید؟
کلمه “پارامترها” تقریباً برای LLM ها به کار می رود. واقعا به چه چیزی اشاره دارد؟
ما از Victor Botev، مدیر ارشد فناوری و یکی از بنیانگذاران Iris AI (استارت آپی برنده جایزه که یک موتور هوش مصنوعی برای درک متون علمی به همراه یک مجموعه نرم افزار ماژولار ارائه می دهد) برای توضیح دهنده خود درخواست کردیم. در اینجا نحوه بیان او آمده است.
“پارامترها” ضرایب ریاضی در یک مدل یادگیری ماشینی هستند که به طور مستقل از داده های آموزشی تاریخی یاد می گیرند. در NLP، آنها نشان دهنده احتمال ظاهر شدن یک ویژگی خاص از متن، به چه ترتیب، با استفاده از کدام کاراکتر و غیره هستند. با تنظیم پارامترهای خود در سطوح مختلف، میتوانید ساختار زیربنایی یک مدل را برای تطبیق بهتر دادهها و ارائه پاسخهای دقیقتر تنظیم کنید. هر پارامتر را به عنوان یک نوار لغزنده در یک میز بزرگ میکس صدا در نظر بگیرید – به جز، در این مورد، ممکن است میلیاردها لغزنده وجود داشته باشد.
هر پارامتر به مدل میگوید که چقدر احتمال دارد که در پاسخ به یک دستور داده شده از نشانههای نقطهگذاری، اعداد، کاراکترهای خاص، اسمها، افعال، صفتها و سایر ویژگیهای متن استفاده کند و در چه فرکانسی این کار را انجام دهد. تعداد پارامترها در طول تاریخ به عنوان راهی برای ردیابی مهارت یک مدل زبان در یک کار خاص استفاده شده است. در واقع، آنها اغلب به عنوان یک معیار رقابتی استفاده می شوند: “مدل ما دارای 100 میلیارد پارامتر است، در حالی که مدل رقیب ما فقط 25 میلیارد پارامتر دارد، و بنابراین مدل ما در فلان کار بهتر است.”
وقتی گفته می شود یک مدل دارای ‘X میلیارد پارامتر’ است، معنای واقعی آن این است که، هر بار که درخواستی را ارسال می کنید، تمام پارامترهای ‘X میلیارد’ برای ایجاد پاسخ استفاده می شود. در حالت ایده آل، این بدان معنی است که شما پاسخ بهتر و دقیق تری دریافت می کنید. برخی از شرکتها این دیدگاه را اتخاذ میکنند که «هرچه بزرگتر، بهتر» و تعداد پارامترهای مدل و توانایی آن برای تولید متن را به عنوان یک رابطه خطی در نظر میگیرند.
با این حال، این یک نکته مهم را از دست می دهد. هر چه یک مدل پارامترهای بیشتری داشته باشد، در کارهای خاص بهتر عمل می کند – و تولید متن به هیچ وجه یک کار واحد نیست. این شامل بسیاری از بخشهای مختلف است، مانند ابهامزدایی از مرز جمله، برچسبگذاری بخشی از گفتار، و ابهامزدایی از معنای کلمه، بدون ذکر اعتبار واقعی. تعداد بسیار زیاد پارامترها ممکن است به یک مدل زبان (یا مدل زبان بزرگ، LLM) زمینه و آموزش ایجاد کند تا در پاسخ به اکثر درخواستها، متنی قابل قبول و «با صدای انسانی» تولید کند. این به این دلیل است که میتواند با دقت بالایی پیشبینی کند که واکنش انسان چگونه خواهد بود – اما کمیت با کیفیت برابری نمیکند.
احتمال اینکه این پاسخها حاوی خطاهای واقعی باشند همچنان بالاست مگر اینکه دادههای با کیفیت بالا برای آموزش این پارامترها وجود داشته باشد. از آنجایی که پارامترهای بیشتر به این معنی است که شما به مثالهای بیشتری نیاز دارید، در نتیجه باید زمینه بیشتری را به دادههای آموزشی خود اضافه کنید تا اطمینان حاصل کنید که انتزاعات مدلها از واقعیتهای دقیقی که باید تولید کنند، دور نخواهند شد.