مدلهای زبان بزرگ (LLM) مانند GPT-3 و ChatGPT با ارائه قابلیتهای درک زبان طبیعی و تولید محتوا، هوش مصنوعی را متحول کردهاند. اما توسعه آنها با قیمت گزافی همراه است که دسترسی و تحقیقات بیشتر را محدود می کند. محققان تخمین می زنند که آموزش GPT-3 برای OpenAI حدود 5 میلیون دلار هزینه دارد. با این وجود، مایکروسافت این پتانسیل را تشخیص داد و 1 میلیارد دلار در سال 2019 و 10 میلیارد دلار در سال 2023 در سرمایه گذاری OpenAI’s GPT-3 و ChatGPT سرمایه گذاری کرد.
LLM ها مدل های یادگیری ماشینی هستند که بر روی داده های متنی گسترده برای برنامه های NLP آموزش دیده اند. آنها بر اساس معماری ترانسفورماتور هستند و از مکانیسم های توجه برای وظایف NLP مانند پاسخ به سؤال، ترجمه ماشینی، تجزیه و تحلیل احساسات و غیره استفاده می کنند.
این سوال مطرح می شود: آیا می توان کارایی این مدل های بزرگ را افزایش داد و به طور همزمان هزینه محاسباتی و زمان آموزش را کاهش داد؟
چندین رویکرد مانند شبکههای عصبی پیشرونده، مورفیسم شبکه، موازیسازی مدل درون لایه، وراثت دانش و غیره برای کاهش هزینههای محاسباتی آموزش شبکههای عصبی ایجاد شدهاند. رویکرد جدید LiGO (اپراتور رشد خطی) که در مورد آن بحث خواهیم کرد، معیار جدیدی را تعیین می کند. این هزینه محاسباتی آموزش LLM را به نصف کاهش می دهد.
قبل از بحث در مورد این تکنیک، بررسی عوامل موثر در قیمت بالای ساخت LLM ضروری است.
هزینه ساخت مدل های زبان بزرگ
سه هزینه عمده برای توسعه LLM به شرح زیر است:
1. منابع محاسباتی
ساخت LLM به منابع محاسباتی عظیمی برای آموزش روی مجموعه داده های بزرگ نیاز دارد. آنها باید میلیاردها پارامتر را پردازش کنند و الگوهای پیچیده را از داده های متنی عظیم بیاموزند.
سرمایه گذاری در سخت افزارهای تخصصی مانند واحدهای پردازش گرافیکی (GPU) و واحدهای پردازش تانسور (TPU) برای ساخت و آموزش LLMها برای دستیابی به عملکرد پیشرفته مورد نیاز است.
به عنوان مثال، GPT-3 بر روی یک ابر رایانه با 10000 پردازنده گرافیکی درجه یک سازمانی (H100 و A100) و 285000 هسته CPU آموزش دید.
2. مصرف انرژی
منابع محاسباتی فشرده مورد نیاز برای ساخت LLM ها منجر به مصرف انرژی قابل توجهی می شود. به عنوان مثال، آموزش 175 میلیارد پارامتر GPT-3 با استفاده از 10000 GPU V100، معادل 3.55 میلیون ساعت GPU، 14.8 روز طول کشید. چنین سطح بالای مصرف انرژی اثرات زیست محیطی قابل توجهی نیز دارد.
3. ذخیره سازی و مدیریت داده ها
LLM ها بر روی مجموعه داده های بزرگ آموزش می بینند. به عنوان مثال، GPT-3 بر روی مجموعه گسترده ای از داده های متنی، از جمله Common Crawl، WebText2، Books1، Books2، و Wikipedia، در میان منابع دیگر، آموزش دید. سرمایه گذاری زیرساختی قابل توجهی برای جمع آوری، مدیریت و ذخیره این مجموعه داده ها مورد نیاز است.
همچنین، ذخیره سازی ابری برای ذخیره سازی داده ها و تخصص انسانی برای پیش پردازش داده ها و کنترل نسخه مورد نیاز است. علاوه بر این، اطمینان از اینکه استراتژی داده شما با مقرراتی مانند GDPR مطابقت دارد، هزینه را نیز افزایش می دهد.
تکنیک LiGO: هزینه ساخت مدل های زبان بزرگ را به نصف کاهش دهید
LiGO (اپراتور رشد خطی) یک تکنیک جدید است که توسط محققان MIT برای کاهش هزینه محاسباتی آموزش LLM تا 50٪ توسعه یافته است. این روش شامل مقداردهی اولیه وزن مدلهای بزرگتر از مدلهای کوچکتر از قبل آموزشدیده شده است، که مقیاسگذاری کارآمد شبکههای عصبی را ممکن میسازد.
یون کیم، نویسنده ارشد مقاله، می گوید:
تخمین زده میشود که مدلهای آموزشی در مقیاسی که ChatGPT فرض میشود روی آن اجرا شود، میتواند میلیونها دلار صرف یک دوره آموزشی واحد ببرد. آیا میتوانیم کارایی این روشهای آموزشی را بهبود بخشیم تا بتوانیم مدلهای خوب را در زمان کمتر و هزینه کمتری دریافت کنیم؟ ما پیشنهاد میکنیم این کار را با استفاده از مدلهای زبان کوچکتر که قبلاً آموزش دیدهاند انجام دهیم.»
این روش مزایای عملکرد مدل های بزرگتر را با کاهش هزینه محاسباتی و زمان آموزش در مقایسه با آموزش یک مدل بزرگ از ابتدا حفظ می کند. LiGO از یک عملگر رشد خطی مبتنی بر داده استفاده می کند که عملگرهای عمق و عرض را برای عملکرد بهینه ترکیب می کند.
این مقاله از مجموعه دادههای مختلفی برای انجام آزمایشهای مبتنی بر متن، از جمله مجموعه ویکیپدیای انگلیسی برای آموزش مدلهای BERT و RoBERTa و مجموعه دادههای C4 برای آموزش GPT2 استفاده کرد.
آزمایش تکنیک LiGO شامل رشد BERT-Small به BERT-Base، BERT-Base به BERT-Large، RoBERTaSmall به RoBERTa-Base، GPT2-Base به GPT2-Medium و CaiT-XS به CaiT-S بود.
محققان رویکرد خود را با چندین خط پایه دیگر از جمله آموزش از ابتدا، آموزش پیشرونده، bert2BERT و KI مقایسه کردند.
تکنیک LiGO در مقایسه با آموزش BERT-Base از ابتدا با استفاده مجدد از مدل BERT-Small، 44.7 درصد در FLOP (عملیات ممیز شناور در ثانیه) و 40.7 درصد در زمان دیوار صرفه جویی می کند. عملگر رشد LiGO در آموزش کارآمد از StackBERT، MSLT، bert2BERT و KI بهتر عمل می کند.
مزایای استفاده از تکنیک بهینه سازی آموزش مانند LiGO
LiGO یک روش آموزش شبکه عصبی کارآمد است که دارای مزایای مختلفی است که به شرح زیر ذکر شده است:
1. آموزش سریعتر
همانطور که قبلاً گفته شد، آموزش سریعتر مزیت اصلی تکنیک LiGO است. این LLM ها را در نیمی از زمان آموزش می دهد و بهره وری را افزایش می دهد و هزینه ها را کاهش می دهد.
2. منابع کارآمد
LiGO از نظر منابع کارآمد است زیرا زمان دیوار و FLOP ها را به حداقل می رساند و منجر به رویکرد مقرون به صرفه تر و سازگار با محیط زیست برای آموزش مدل های ترانسفورماتور بزرگ می شود.
3. تعمیم
تکنیک LiGO عملکرد هر دو ترانسفورماتور زبان و بینایی را بهبود بخشیده است و نشان می دهد که این یک تکنیک قابل تعمیم است که می تواند برای کارهای مختلف اعمال شود.
ساخت محصولات تجاری هوش مصنوعی تنها یک جنبه از هزینه های کلی مرتبط با سیستم های هوش مصنوعی است. یکی دیگر از اجزای مهم هزینه ها از عملیات روزانه ناشی می شود. به عنوان مثال، هر روز برای OpenAI حدود 700000 دلار هزینه دارد تا به سوالات با استفاده از ChatGPT پاسخ دهد. انتظار می رود محققان به بررسی روش هایی ادامه دهند که LLM ها را در طول آموزش مقرون به صرفه و در زمان اجرا در دسترس تر می کند.
برای محتوای بیشتر مرتبط با هوش مصنوعی، unite.ai را ببینید.