Hugging Face، جامعه یادگیری ماشینی و پلتفرم ابزارهای هوش مصنوعی، انتشار HuggingChat، یک شبیهسازی متنباز ChatGPT را اعلام کرد که هر کسی میتواند برای خود استفاده یا دانلود کند.
صورت در آغوش گرفته
Hugging Face یک شرکت و یک جامعه هوش مصنوعی است. این امکان دسترسی به ابزارهای منبع باز رایگان را برای توسعه برنامه های یادگیری ماشینی و هوش مصنوعی فراهم می کند.
یکی از پروژههای Hugging Face که اخیراً تکمیل شده است، یک مدل زبان بزرگ با 176 میلیارد پارامتر به نام Bloom است که برای هر کسی که موافقت میکند مجوز هوش مصنوعی خود را رعایت کند، در دسترس است.
دسترسی به مدل های منبع باز در دسته های مختلف مانند چندوجهی، بینایی، صوتی، پردازش زبان طبیعی و یادگیری تقویتی وجود دارد.
Hugging Face همچنین مجموعه داده ها و کتابخانه های منبع باز را میزبانی می کند و به عنوان راهی برای همکاری تیم ها از جمله یک مخزن مشابه GitHub عمل می کند.
بسیاری از خدمات به صورت رایگان، حرفه ای و سازمانی در دسترس هستند.
HuggingChat
کلون HuggingChat ChatGPT بر اساس مدل Open Assistant Conversational AI ساخته شده است.
Open Assistant خود یک پروژه غیرانتفاعی شبکه باز هوش مصنوعی در مقیاس بزرگ (LAION) است.
LAION یک سازمان غیرانتفاعی جهانی است که به ارائه دسترسی به فناوری پیشرفته به عنوان منبع باز اختصاص دارد.
آنها می نویسند:
“باور ما
ما معتقدیم که تحقیقات یادگیری ماشین و کاربردهای آن پتانسیل تأثیرات مثبت عظیمی بر دنیای ما دارند و بنابراین باید دموکراتیزه شوند.اهداف اصلی ما
انتشار مجموعه داده های باز، کد و مدل های یادگیری ماشینی.می خواهیم اصول تحقیق و مدیریت داده در مقیاس بزرگ ML را آموزش دهیم.
با ساخت مدلها، مجموعه دادهها و کدهای قابل استفاده مجدد بدون نیاز به آموزش از ابتدا، ما میخواهیم استفاده کارآمد از انرژی و منابع محاسباتی را برای رویارویی با چالشهای تغییرات آب و هوایی ترویج دهیم.»
صفحه GitHub برای مدل چت Open Assistant می گوید:
«دستیار باز پروژهای است که به همه امکان دسترسی به یک مدل زبان بزرگ مبتنی بر چت را میدهد.
ما معتقدیم که با این کار انقلابی در نوآوری در زبان ایجاد خواهیم کرد.
همانطور که stabil-diffusion به جهان کمک کرد تا هنر و تصاویر را به روشهای جدیدی بسازد، امیدواریم Open Assistant بتواند با بهبود زبان خود به بهبود جهان کمک کند.»
مجموعه داده آموزش HuggingChat
HuggingChat با OpenAssistant Conversations Dataset (OASST1) آموزش داده شد که بسیار جدید است و حاوی داده هایی است که تا 12 آوریل 2023 جمع آوری شده است.
مقاله تحقیقاتی برای مجموعه داده از آوریل 2023 (مکالمات OpenAssistant – دموکراتیک کردن تراز مدل زبان بزرگ – PDF).
این مدل از همان روش آموزشی ایجاد شده توسط OpenAI استفاده می کند که به آن یادگیری تقویتی از بازخورد انسانی (RLHF) می گویند.
RLHF تکنیکی است برای ایجاد مجموعه دادههای حاشیهنویسی با کیفیت بالا و دارای رتبهبندی با کیفیت از پرسشها و پاسخها که میتواند برای آموزش یک هوش مصنوعی برای پیروی از دستورالعملها استفاده شود.
با این نسخه، آنها به هدف خود رسیدند تا تکنیک RLHF را در دسترس هر کسی که میخواهد یک هوش مصنوعی آموزش دهد، قرار دهد.
در مقاله پژوهشی آمده است:
در تلاشی برای دموکراتیزه کردن تحقیقات در زمینه همسویی در مقیاس بزرگ، Open Assistant Conversations را منتشر کردیم، یک مجموعه مکالمه به سبک دستیار مشروح شده توسط انسان، متشکل از 161,443 پیام توزیع شده در 66,497 درخت مکالمه، به 35 زبان مختلف، حاشیه نویسی شده با کیفیت 461,29. رتبه بندی ها.”
مجموعه داده محصول یک تلاش جمع سپاری در سراسر جهان توسط بیش از 13000 داوطلب است.
جمع سپاری راه خوبی برای تولید داده های آموزشی چند زبانه بود که به مجموعه داده با کیفیت بالا کمک کرد.
با این حال، به گفته محققان، رویکرد جمعسپاری محدودیتهایی را در کیفیت مجموعه دادهها در قالب سوگیریهای فرهنگی و ذهنی افرادی که دادههای آموزشی را ایجاد و رتبهبندی میکنند، معرفی کرد.
آنها همچنین هشدار دادند که شرکتکنندگانی که بیشتر درگیر بودند، تمایل بیشتری به مشارکت دارند، در نتیجه توزیع نابرابر ارزشها و تعصبات آنها ایجاد میشود.
محققان نتیجه میگیرند که مجموعه دادهها ممکن است نشان دهنده تنوع دیدگاهها در همه مشارکتکنندگان نباشد.
به عنوان مثال، آنها یک نظرسنجی را به کانال Discord خود ارسال کردند (فقط به زبان انگلیسی) و از همکاران منبع باز خود سؤالاتی در رابطه با جمعیت شناسی آنها (اما نه قومیت) پرسیدند.
با کنار گذاشتن سوگیری زبانی، نتایج این نظرسنجی نشان داد که از 226 پاسخدهنده، 201 نفر مرد، 10 نفر زن، پنج نفر غیردودویی/سایر شناسایی شدند و 10 نفر از پاسخ دادن خودداری کردند.
با این وجود، اگرچه آنها 100٪ تضمین نمی کنند که مجموعه داده عاری از محتوای مضر است، اما همچنان پشت آن ایستاده اند زیرا با دستورالعمل های کیفیت دقیق ایجاد شده است.
محققان می نویسند:
«برای اطمینان از کیفیت مجموعه دادههایمان، دستورالعملهای سختگیرانهای برای مشارکتکنندگان ایجاد کردهایم که همه کاربران باید از آن پیروی کنند.
این دستورالعملها برای جلوگیری از اضافه شدن محتوای مضر به مجموعه دادههای ما و تشویق مشارکتکنندگان برای ایجاد پاسخهای با کیفیت بالا طراحی شدهاند.»
HuggingChat در دسترس است
HuggingChat در حال حاضر برای کاربران باز است. ثبت نام برای ایجاد یک حساب کاربری برای استفاده از آن ضروری نیست.
انتظار سطح خروجی ChatGPT نداشته باشید، سرویس هنوز در آن سطح نیست. صفحه برنامه آن را بهعنوان نسخه 0.0 فهرست میکند، که باید تصوری از میزان بلوغ آن در این مرحله ارائه دهد.
با این وجود، این یک دستاورد و گام های اولیه برای جامعه منبع باز است و هیچ هزینه ای برای استفاده از آن وجود ندارد.
از صفحه وب HuggingChat در اینجا دیدن کنید:
صفحه وب و رابط کاربری HuggingChat