سلسله مراتب کفتارهای استنفورد و MILA یک فناوری برای ارتباط اقلام داده است، خواه کلمات یا پیکسل در یک تصویر دیجیتالی باشند. این فناوری میتواند در وظایف محک هوش مصنوعی به دقتی مشابه «استاندارد طلایی» موجود برای مدلهای زبان بزرگ، مکانیسم «توجه»، اما با قدرت محاسباتی 100 برابر کمتر دست یابد.
تصویر: Tiernan + DALL•E
با وجود همه شور و شوق نسبت به برنامه ربات چت AI معروف به ChatGPT، از OpenAI، و فناوری جانشین آن، GPT-4، برنامه ها در پایان روز، فقط برنامه های نرم افزاری هستند. و مانند همه برنامه ها، آنها دارای محدودیت های فنی هستند که می تواند عملکرد آنها را کمتر از حد مطلوب کند.
در مقالهای که در ماه مارس منتشر شد، دانشمندان هوش مصنوعی (AI) در دانشگاه استنفورد و موسسه هوش مصنوعی MILA کانادا، فناوریای را پیشنهاد کردند که میتواند بسیار کارآمدتر از GPT-4 – یا هر چیزی شبیه به آن – در جمعآوری حجم وسیعی از دادهها و تبدیل آن به پاسخ
همچنین: GPT-4 چیست؟ در اینجا همه چیزهایی است که باید بدانید
این فناوری که با نام Hyena شناخته میشود، میتواند در تستهای معیار، مانند پاسخگویی به سؤال، در حالی که از کسری از قدرت محاسباتی استفاده میکند، به دقتی معادل دست یابد. در برخی موارد، کد Hyena قادر به مدیریت مقادیر متنی است که باعث می شود فناوری به سبک GPT به سادگی حافظه اش تمام شود و از کار بیفتد.
نویسندگان می نویسند: «نتایج امیدوارکننده ما در مقیاس پارامتر زیر میلیاردی نشان می دهد که توجه ممکن است آن چیزی که نیاز داریم نباشد». این اظهار نظر به عنوان یک گزارش برجسته هوش مصنوعی در سال 2017 اشاره دارد، “توجه تنها چیزی است که شما نیاز دارید”. در آن مقاله، Ashish Vaswani دانشمند گوگل و همکارانش برنامه Transformer AI گوگل را به دنیا معرفی کردند. ترانسفورماتور مبنایی برای هر یک از مدل های زبان بزرگ اخیر شد.
اما ترانسفورماتور یک نقص بزرگ دارد. از چیزی به نام “توجه” استفاده می کند، جایی که برنامه کامپیوتری اطلاعات را در یک گروه از نمادها، مانند کلمات، می گیرد و آن اطلاعات را به گروه جدیدی از نمادها منتقل می کند، مانند پاسخی که از ChatGPT می بینید، که خروجی است.
این عملیات توجه – ابزار ضروری همه برنامه های زبان بزرگ، از جمله ChatGPT و GPT-4 – دارای پیچیدگی محاسباتی “دوگانه” است (Wiki “پیچیدگی زمانی” محاسبات). این پیچیدگی به این معنی است که مدت زمانی که ChatGPT برای تولید یک پاسخ طول میکشد، با مجذور مقدار دادهای که به عنوان ورودی تغذیه میشود، افزایش مییابد.
همچنین: Auto-GPT چیست؟ همه چیز در مورد ابزار قدرتمند هوش مصنوعی بعدی
در برخی مواقع، اگر دادههای زیادی وجود داشته باشد – کلمات بیش از حد در اعلان یا رشتههای مکالمه بیش از حد در طول ساعتها و ساعتها چت با برنامه – آنگاه یا برنامه در ارائه پاسخ دچار مشکل میشود، یا باید بیشتر و بیشتر تراشههای GPU داده میشوند تا سریعتر و سریعتر اجرا شوند، که منجر به افزایش نیازهای محاسباتی میشود.
در مقاله جدید «سلسله مراتب کفتار: به سوی مدلهای زبان کانولوشنال بزرگتر» که در سرور پیشچاپ arXiv پست شده است، مایکل پولی، نویسنده اصلی از استنفورد و همکارانش پیشنهاد میکنند تابع توجه ترانسفورماتور را با چیزی جایگزین کنند. زیر درجه دوم، یعنی کفتار
نویسندگان این نام را توضیح نمی دهند، اما می توان چندین دلیل برای برنامه «کفتار» تصور کرد. کفتارها حیواناتی هستند که در آفریقا زندگی می کنند و می توانند کیلومترها و مایل ها شکار کنند. به یک معنا، یک مدل زبانی بسیار قدرتمند میتواند مانند کفتار باشد که برای یافتن چیزی مفید، مایلها و مایلها مردار را میچیند.
اما نویسندگان واقعاً به “سلسله مراتب” توجه دارند، همانطور که از عنوان نشان می دهد، و خانواده های کفتارها یک سلسله مراتب سختگیرانه دارند که براساس آن اعضای یک قبیله کفتار محلی سطوح مختلفی از رتبه را دارند که تسلط را ایجاد می کند. به روشی مشابه، برنامه Hyena مجموعه ای از عملیات بسیار ساده را، همانطور که خواهید دید، بارها و بارها اعمال می کند، به طوری که آنها ترکیب می شوند و نوعی سلسله مراتب پردازش داده را تشکیل می دهند. این عنصر ترکیبی است که نام Hyena را به برنامه می دهد.
همچنین: بن گورتزل میگوید نسخههای آینده ChatGPT میتوانند جایگزین اکثر کارهای امروزی شوند
نویسندگان مقاله شامل افراد برجسته دنیای هوش مصنوعی، مانند یوشوا بنجیو، مدیر علمی MILA، که برنده جایزه تورینگ 2019، معادل جایزه نوبل محاسباتی است، هستند. Bengio به طور گسترده ای با توسعه مکانیسم توجه بسیار قبل از اینکه Vaswani و تیم آن را برای Transformer تطبیق دهند اعتبار دارد.
همچنین در میان نویسندگان، کریستوفر ر، دانشیار علوم کامپیوتر دانشگاه استنفورد است که در سالهای اخیر به پیشرفت مفهوم هوش مصنوعی به عنوان «نرمافزار 2.0» کمک کرده است.
برای یافتن جایگزینی فرعی برای توجه، پولی و تیم بررسی کردند که مکانیسم توجه چگونه کاری را که انجام می دهد انجام می دهد تا ببینند آیا آن کار می تواند کارآمدتر انجام شود یا خیر.
یک تمرین اخیر در علم هوش مصنوعی، که به عنوان تفسیرپذیری مکانیکی شناخته میشود، بینشهایی را در مورد آنچه در اعماق یک شبکه عصبی، درون «مدارهای» محاسباتی توجه میگذرد، به دست میدهد. میتوانید آن را بهعنوان جدا کردن نرمافزار در نظر بگیرید، همانطور که یک ساعت یا رایانه شخصی را جدا میکنید تا قطعات آن را ببینید و نحوه عملکرد آن را بفهمید.
همچنین: من از ChatGPT برای نوشتن همان روال در 12 زبان برنامه نویسی برتر استفاده کردم. در اینجا نحوه انجام آن است
یکی از کارهایی که پولی و تیم به آن اشاره کرده اند، مجموعه ای از آزمایشات محقق نلسون الهاج از استارتاپ هوش مصنوعی Anthropic است. این آزمایشها برنامههای ترانسفورماتور را از هم جدا میکنند تا ببینند توجه چه میکند.
در اصل، آنچه Elhage و تیم دریافتند این است که توجه در ابتدایی ترین سطح خود با عملیات رایانه ای بسیار ساده عمل می کند، مانند کپی کردن یک کلمه از ورودی اخیر و چسباندن آن در خروجی.
برای مثال، اگر کسی شروع به تایپ کردن در یک برنامه مدل زبان بزرگ مانند ChatGPT کند، جمله ای از هری پاتر و سنگ جادو، مانند «آقای دورسلی مدیر شرکتی به نام گرونینگ بود…»، فقط «درس» را تایپ کنید، شروع نام، ممکن است برای ترغیب برنامه برای تکمیل نام “Dursley” کافی باشد، زیرا نام را در جمله قبلی سنگ جادوگر دیده است. این سیستم قادر است رکورد کاراکترهای “لی” را برای تکمیل خودکار جمله از حافظه کپی کند.
همچنین: آینده پژوه می گوید که ChatGPT بیشتر شبیه یک «هوش بیگانه» است تا مغز انسان
با این حال، با افزایش و افزایش تعداد کلمات، عملیات توجه به مشکل پیچیدگی درجه دوم وارد می شود. برای اجرای عملیات توجه، کلمات بیشتری به مواردی که به عنوان “وزن” یا پارامترها شناخته می شوند، نیاز دارند.
همانطور که نویسندگان می نویسند: “بلوک ترانسفورماتور ابزار قدرتمندی برای مدل سازی توالی است، اما بدون محدودیت نیست. یکی از قابل توجه ترین آنها هزینه محاسباتی است که با افزایش طول توالی ورودی، به سرعت رشد می کند.”
اگرچه جزئیات فنی ChatGPT و GPT-4 توسط OpenAI فاش نشده است، اعتقاد بر این است که آنها ممکن است یک تریلیون یا بیشتر از این پارامترها را داشته باشند. اجرای این پارامترها به تراشههای GPU بیشتری از Nvidia نیاز دارد، بنابراین هزینههای محاسباتی را بالا میبرد.
برای کاهش این هزینه محاسبات درجه دوم، Poli و تیم عملیات توجه را با چیزی که “پیچیدگی” نامیده می شود، جایگزین کردند، که یکی از قدیمی ترین عملیات در برنامه های هوش مصنوعی است که در دهه 1980 اصلاح شده است. پیچیدگی فقط فیلتری است که میتواند موارد موجود در دادهها را انتخاب کند، چه پیکسلها در یک عکس دیجیتال یا کلمات در یک جمله.
همچنین: بنژیو، پیشگام هوش مصنوعی، میگوید موفقیت ChatGPT میتواند منجر به یک نوسان مخرب برای رازداری در هوش مصنوعی شود.
پولی و تیم نوعی ترکیب را انجام می دهند: آنها کار انجام شده توسط محقق استنفورد دانیل یو فو و تیمش را برای اعمال فیلترهای کانولوشن برای توالی کلمات، و آن را با کار محقق دیوید رومرو و همکارانش در Vrije Universiteit Amsterdam ترکیب می کنند. که به برنامه اجازه می دهد تا اندازه فیلتر را در لحظه تغییر دهد. این توانایی برای انطباق انعطافپذیر تعداد پارامترهای پرهزینه یا وزنهایی که برنامه باید داشته باشد را کاهش میدهد.
Hyena ترکیبی از فیلترهایی است که بر روی یکدیگر ساخته می شوند بدون اینکه متحمل افزایش گسترده پارامترهای شبکه عصبی شوند.
منبع: Poli et al.
نتیجه ترکیب این است که یک کانولوشن را می توان به مقدار نامحدودی از متن بدون نیاز به پارامترهای بیشتر و بیشتر برای کپی کردن داده های بیشتر و بیشتر اعمال کرد. همانطور که نویسندگان بیان کردند، این یک رویکرد “بدون توجه” است.
Poli و تیمش می نویسند: «اپراتورهای Hyena می توانند شکاف کیفیت را با توجه در مقیاس به طور قابل توجهی کاهش دهند، و به سردرگمی مشابه و عملکرد پایین دستی با تکان محاسباتی کوچکتر دست پیدا کنند. گیجی یک اصطلاح فنی است که به پیچیدگی پاسخی که توسط برنامهای مانند ChatGPT تولید میشود اشاره دارد.
برای نشان دادن توانایی Hyena، نویسندگان این برنامه را در یک سری وظایف محک آزمایش می کنند که نشان می دهد یک برنامه زبان جدید چقدر در انواع وظایف هوش مصنوعی خوب است.
همچنین: کریس ری، پروفسور هوش مصنوعی استنفورد می گوید: «چیزهای عجیب و غریب جدیدی در نرم افزار در حال رخ دادن است
یکی از آزمایشها The Pile است، مجموعهای 825 گیگابایتی از متون که در سال 2020 توسط Eleuther.ai، یک سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی گردآوری شد. متون از منابع “با کیفیت بالا” مانند PubMed، arXiv، GitHub، اداره ثبت اختراع ایالات متحده، و دیگران جمع آوری شده اند، به طوری که منابع شکل دقیق تری نسبت به بحث های ردیت دارند.
چالش کلیدی برای برنامه این بود که کلمه بعدی را هنگامی که یک دسته جملات جدید به عنوان ورودی داده می شد تولید کند. محققان می نویسند که برنامه Hyena توانست با 20 درصد عملیات محاسباتی کمتر به امتیازی معادل برنامه GPT اصلی OpenAI از سال 2018 دست یابد – “اولین معماری کانولوشن بدون توجه و مطابق با کیفیت GPT” با عملیات کمتر.
Hyena توانست برنامه اصلی GPT OpenAI را با 20٪ عملیات محاسباتی کمتر مطابقت دهد.
منبع: Poli et al.
سپس، نویسندگان این برنامه را بر روی وظایف استدلالی موسوم به SuperGLUE که در سال 2019 توسط محققان دانشگاه نیویورک، تحقیقات هوش مصنوعی فیس بوک، واحد DeepMind گوگل و دانشگاه واشنگتن معرفی شد، آزمایش کردند.
به عنوان مثال، هنگامی که جمله “بدن من بر علف ها سایه انداخت” و دو گزینه برای علت، “خورشید طلوع می کرد” یا “علف ها بریده شد” داده شد و از او خواستند یکی یا دیگری را بچینند، برنامه باید “خورشید طلوع می کرد” را به عنوان خروجی مناسب تولید کند.
در چندین کار، برنامه Hyena به نمرات یک نسخه از GPT یا نزدیک به آن دست یافت، در حالی که بر روی کمتر از نیمی از داده های آموزشی آموزش دیده بود.
همچنین: نحوه استفاده از بینگ جدید (و تفاوت آن با ChatGPT)
جالبتر این است که چه اتفاقی افتاد زمانی که نویسندگان طول عبارات استفاده شده را به عنوان ورودی افزایش دادند: کلمات بیشتر برابر با بهبود عملکرد بهتر است. Hyena با 2048 “توکن” که می توانید آنها را به عنوان کلمات در نظر بگیرید، به زمان کمتری برای تکمیل یک کار زبانی نسبت به رویکرد توجه نیاز دارد.
نویسندگان می گویند که با 64000 توکن، “افزایش سرعت Hyena به 100 برابر می رسد” – یک بهبود عملکرد صد برابری.
پولی و تیم استدلال میکنند که آنها فقط یک رویکرد متفاوت را با Hyena امتحان نکردهاند، بلکه “سید درجه دوم” را شکستهاند و باعث تغییر کیفی در میزان سختی محاسبه نتایج برای یک برنامه شدهاند.
آنها همچنین پیشنهاد می کنند که تغییرات بالقوه قابل توجهی در کیفیت در ادامه راه وجود دارد: “شکستن سد درجه دوم یک گام کلیدی به سمت امکانات جدید برای یادگیری عمیق است، مانند استفاده از کل کتاب های درسی به عنوان زمینه، تولید موسیقی طولانی یا پردازش تصاویر در مقیاس گیگاپیکسلی، ” می نویسند.
نویسندگان می نویسند، توانایی Hyena برای استفاده از فیلتری که با کارآمدی بیش از هزاران و هزاران کلمه گسترش می یابد، به این معنی است که عملاً نمی توان محدودیتی برای “زمینه” یک پرس و جو برای یک برنامه زبانی وجود داشت. در واقع میتواند عناصری از متون یا مکالمات قبلی را به خاطر بیاورد که از موضوع گفتگوی کنونی بسیار دور هستند – درست مانند کفتارهایی که کیلومترها شکار میکنند.
همچنین: بهترین چت ربات های هوش مصنوعی: ChatGPT و سایر جایگزین های سرگرم کننده برای امتحان
آنها می نویسند: «اپراتورهای کفتار زمینه نامحدودی دارند. “یعنی، آنها به طور مصنوعی توسط مکان محدود نمی شوند و می توانند وابستگی های طولانی مدت بین هر یک از عناصر را بیاموزند. [input]”
علاوه بر این، و همچنین کلمات، این برنامه را می توان به داده های روش های مختلف، مانند تصاویر و شاید ویدئو و صداها اعمال کرد.
توجه به این نکته مهم است که برنامه Hyena نشان داده شده در مقاله در مقایسه با GPT-4 یا حتی GPT-3 از نظر اندازه کوچک است. در حالی که GPT-3 دارای 175 میلیارد پارامتر یا وزن است، بزرگترین نسخه Hyena تنها 1.3 میلیارد پارامتر دارد. از این رو، باید دید که Hyena در مقایسه مستقیم با GPT-3 یا 4 چقدر خوب عمل خواهد کرد.
اما، اگر کارایی بهدستآمده در نسخههای بزرگتر برنامه Hyena وجود داشته باشد، میتواند پارادایم جدیدی باشد که به اندازه توجه در دهه گذشته رایج است.
همانطور که Poli و تیم نتیجه میگیرند: «طراحیهای فرعی سادهتر مانند Hyena، با مجموعهای از اصول راهنمای ساده و ارزیابی معیارهای تفسیرپذیری مکانیکی، ممکن است مبنایی برای مدلهای بزرگ کارآمد باشد.»