(منبع – Shutterstock)
از آنجایی که شرکتهای بزرگ فناوری به تکمیل هوش مصنوعی مولد ادامه میدهند، جامعه منبع باز ممکن است اکنون فرصتی برای کار با این فناوری داشته باشد. شرکت تجزیه و تحلیل داده های بزرگ Databricks نسخه خود از یک هوش مصنوعی مولد را معرفی کرده است که برای هر کسی در دسترس است تا برای هر هدفی از آن استفاده کند.
تیم Databricks با نام Dolly ثابت کرد که هر کسی میتواند یک مدل زبان منبع باز قدیمی (LLM) را تهیه کند و با آموزش آن در 30 دقیقه بر روی یک دستگاه و با استفاده از آموزش با کیفیت بالا، دستورالعملهای ChatGPT را به آن ارائه دهد. داده ها. تیم همچنین خاطرنشان کرد که به نظر نمیرسد پیروی از دستورالعملها به جدیدترین یا بزرگترین مدلها نیاز داشته باشد.
مدل ما تنها 6 میلیارد پارامتر دارد، در مقایسه با 175 میلیارد برای GPT-3. ما کد مدل خود (Dolly) را منبع باز می کنیم و نشان می دهیم که چگونه می توان آن را دوباره در Databricks ایجاد کرد. ما معتقدیم مدلهایی مانند Dolly به دموکراتیزه کردن LLMها کمک میکند، و آنها را از چیزی که تعداد کمی از شرکتها قادر به خرید آن هستند، به کالایی تبدیل میکنند که هر شرکتی میتواند داشته باشد و برای بهبود محصولات خود سفارشی کند.»
با غواصی عمیقتر، تیم Databricks توضیح داد که Dolly تقریباً یک LLM ارزانتر برای ساخت است که دارای قابلیتهای مشابهی است که ChatGPT به نمایش گذاشته است. فناوری پشت آن بر اساس کار مدل Alpaca ساخته شده توسط Standford است که بر اساس LLaMA متا ساخته شده است. به زبان ساده، Dolly یک کلون منبع باز از آلپاکا و الهام گرفته از LLaMA است.
در حالی که مدل آلپاکا روی مجموعه داده کوچکی از 50000 پرسش و پاسخ شبیه به انسان کار میکند، Databricks کشف کرد که حتی مدلهای منبع باز چند ساله با معماریهای بسیار قدیمیتر وقتی روی مجموعه کوچکی از دادههای آموزشی دستورالعمل تنظیم میشوند، رفتارهای خیرهکنندهای از خود نشان میدهند.
دیتابریکس توضیح داد: «دالی با گرفتن یک مدل متنباز شش میلیارد پارامتری موجود از هوش مصنوعی Eleuther و تغییر آن بسیار اندک برای استخراج دستورالعملهایی مانند طوفان مغزی و تولید متن که در مدل اصلی وجود ندارد، با استفاده از دادههای Alpaca کار میکند.»
برای سازمانها، ساخت مدل خود به جای ارسال دادهها به یک ارائهدهنده متمرکز LLM میتواند در نهایت خطراتی داشته باشد. این شامل مجموعه داده هایی است که به احتمال زیاد از هوش مصنوعی سود می برند که نشان دهنده حساس ترین و اختصاصی ترین داده های آنهاست. همچنین، سازمانها نمیخواهند دادههایشان توسط یک شرکت شخص ثالث نگهداری شود.
به این ترتیب، Databricks معتقد است که سازمانها در نهایت میخواهند مدلهایی داشته باشند که تحت مالکیت و اداره آنها باشد. با این حال، درست مانند سایر شرکت های بزرگ فناوری، Databricks اذعان می کند که هوش مصنوعی مولد هنوز یک فناوری در حال ظهور است. هنوز نگرانی هایی در مورد دقت واقعی، سوگیری، پاسخ های توهین آمیز، سمیت عمومی و توهمات در LLM برای دالی وجود دارد، درست مانند سایر مدل های زبانی.
ما در اولین روزهای دموکراتیزه شدن هوش مصنوعی برای این شرکت هستیم، و کارهای زیادی باید انجام شود، اما معتقدیم فناوری زیربنای دالی یک فرصت هیجان انگیز جدید برای شرکت هایی است که می خواهند مدل های خود را که از دستورالعمل پیروی می کنند ارزان بسازند. Databricks بیان کرد.