آیا می توانید مدل های زبان بزرگی مانند ChatGPT را با نصف هزینه بسازید؟

مدل‌های زبان بزرگ (LLM) مانند GPT-3 و ChatGPT با ارائه قابلیت‌های درک زبان طبیعی و تولید محتوا، هوش مصنوعی را متحول کرده‌اند. اما توسعه آنها با قیمت گزافی همراه است که دسترسی و تحقیقات بیشتر را محدود می کند. محققان تخمین می زنند که آموزش GPT-3 برای OpenAI حدود 5 میلیون دلار هزینه دارد. با این وجود، مایکروسافت این پتانسیل را تشخیص داد و 1 میلیارد دلار در سال 2019 و 10 میلیارد دلار در سال 2023 در سرمایه گذاری OpenAI’s GPT-3 و ChatGPT سرمایه گذاری کرد.

LLM ها مدل های یادگیری ماشینی هستند که بر روی داده های متنی گسترده برای برنامه های NLP آموزش دیده اند. آنها بر اساس معماری ترانسفورماتور هستند و از مکانیسم های توجه برای وظایف NLP مانند پاسخ به سؤال، ترجمه ماشینی، تجزیه و تحلیل احساسات و غیره استفاده می کنند.

این سوال مطرح می شود: آیا می توان کارایی این مدل های بزرگ را افزایش داد و به طور همزمان هزینه محاسباتی و زمان آموزش را کاهش داد؟

چندین رویکرد مانند شبکه‌های عصبی پیشرونده، مورفیسم شبکه، موازی‌سازی مدل درون لایه، وراثت دانش و غیره برای کاهش هزینه‌های محاسباتی آموزش شبکه‌های عصبی ایجاد شده‌اند. رویکرد جدید LiGO (اپراتور رشد خطی) که در مورد آن بحث خواهیم کرد، معیار جدیدی را تعیین می کند. این هزینه محاسباتی آموزش LLM را به نصف کاهش می دهد.

قبل از بحث در مورد این تکنیک، بررسی عوامل موثر در قیمت بالای ساخت LLM ضروری است.

هزینه ساخت مدل های زبان بزرگ

سه هزینه عمده برای توسعه LLM به شرح زیر است:

1. منابع محاسباتی

ساخت LLM به منابع محاسباتی عظیمی برای آموزش روی مجموعه داده های بزرگ نیاز دارد. آنها باید میلیاردها پارامتر را پردازش کنند و الگوهای پیچیده را از داده های متنی عظیم بیاموزند.

سرمایه گذاری در سخت افزارهای تخصصی مانند واحدهای پردازش گرافیکی (GPU) و واحدهای پردازش تانسور (TPU) برای ساخت و آموزش LLMها برای دستیابی به عملکرد پیشرفته مورد نیاز است.

به عنوان مثال، GPT-3 بر روی یک ابر رایانه با 10000 پردازنده گرافیکی درجه یک سازمانی (H100 و A100) و 285000 هسته CPU آموزش دید.

2. مصرف انرژی

منابع محاسباتی فشرده مورد نیاز برای ساخت LLM ها منجر به مصرف انرژی قابل توجهی می شود. به عنوان مثال، آموزش 175 میلیارد پارامتر GPT-3 با استفاده از 10000 GPU V100، معادل 3.55 میلیون ساعت GPU، 14.8 روز طول کشید. چنین سطح بالای مصرف انرژی اثرات زیست محیطی قابل توجهی نیز دارد.

3. ذخیره سازی و مدیریت داده ها

LLM ها بر روی مجموعه داده های بزرگ آموزش می بینند. به عنوان مثال، GPT-3 بر روی مجموعه گسترده ای از داده های متنی، از جمله Common Crawl، WebText2، Books1، Books2، و Wikipedia، در میان منابع دیگر، آموزش دید. سرمایه گذاری زیرساختی قابل توجهی برای جمع آوری، مدیریت و ذخیره این مجموعه داده ها مورد نیاز است.

همچنین، ذخیره سازی ابری برای ذخیره سازی داده ها و تخصص انسانی برای پیش پردازش داده ها و کنترل نسخه مورد نیاز است. علاوه بر این، اطمینان از اینکه استراتژی داده شما با مقرراتی مانند GDPR مطابقت دارد، هزینه را نیز افزایش می دهد.

تکنیک LiGO: هزینه ساخت مدل های زبان بزرگ را به نصف کاهش دهید

LiGO (اپراتور رشد خطی) یک تکنیک جدید است که توسط محققان MIT برای کاهش هزینه محاسباتی آموزش LLM تا 50٪ توسعه یافته است. این روش شامل مقداردهی اولیه وزن مدل‌های بزرگتر از مدل‌های کوچک‌تر از قبل آموزش‌دیده شده است، که مقیاس‌گذاری کارآمد شبکه‌های عصبی را ممکن می‌سازد.

تصویر از مقاله: آموزش رشد مدل های از پیش آموزش دیده برای آموزش ترانسفورماتور کارآمد

یون کیم، نویسنده ارشد مقاله، می گوید:

تخمین زده می‌شود که مدل‌های آموزشی در مقیاسی که ChatGPT فرض می‌شود روی آن اجرا شود، می‌تواند میلیون‌ها دلار صرف یک دوره آموزشی واحد ببرد. آیا می‌توانیم کارایی این روش‌های آموزشی را بهبود بخشیم تا بتوانیم مدل‌های خوب را در زمان کمتر و هزینه کمتری دریافت کنیم؟ ما پیشنهاد می‌کنیم این کار را با استفاده از مدل‌های زبان کوچک‌تر که قبلاً آموزش دیده‌اند انجام دهیم.»

این روش مزایای عملکرد مدل های بزرگتر را با کاهش هزینه محاسباتی و زمان آموزش در مقایسه با آموزش یک مدل بزرگ از ابتدا حفظ می کند. LiGO از یک عملگر رشد خطی مبتنی بر داده استفاده می کند که عملگرهای عمق و عرض را برای عملکرد بهینه ترکیب می کند.

این مقاله از مجموعه داده‌های مختلفی برای انجام آزمایش‌های مبتنی بر متن، از جمله مجموعه ویکی‌پدیای انگلیسی برای آموزش مدل‌های BERT و RoBERTa و مجموعه داده‌های C4 برای آموزش GPT2 استفاده کرد.

آزمایش تکنیک LiGO شامل رشد BERT-Small به BERT-Base، BERT-Base به BERT-Large، RoBERTaSmall به RoBERTa-Base، GPT2-Base به GPT2-Medium و CaiT-XS به CaiT-S بود.

محققان رویکرد خود را با چندین خط پایه دیگر از جمله آموزش از ابتدا، آموزش پیشرونده، bert2BERT و KI مقایسه کردند.

تکنیک LiGO در مقایسه با آموزش BERT-Base از ابتدا با استفاده مجدد از مدل BERT-Small، 44.7 درصد در FLOP (عملیات ممیز شناور در ثانیه) و 40.7 درصد در زمان دیوار صرفه جویی می کند. عملگر رشد LiGO در آموزش کارآمد از StackBERT، MSLT، bert2BERT و KI بهتر عمل می کند.

مزایای استفاده از تکنیک بهینه سازی آموزش مانند LiGO

LiGO یک روش آموزش شبکه عصبی کارآمد است که دارای مزایای مختلفی است که به شرح زیر ذکر شده است:

1. آموزش سریعتر

همانطور که قبلاً گفته شد، آموزش سریعتر مزیت اصلی تکنیک LiGO است. این LLM ها را در نیمی از زمان آموزش می دهد و بهره وری را افزایش می دهد و هزینه ها را کاهش می دهد.

2. منابع کارآمد

LiGO از نظر منابع کارآمد است زیرا زمان دیوار و FLOP ها را به حداقل می رساند و منجر به رویکرد مقرون به صرفه تر و سازگار با محیط زیست برای آموزش مدل های ترانسفورماتور بزرگ می شود.

3. تعمیم

تکنیک LiGO عملکرد هر دو ترانسفورماتور زبان و بینایی را بهبود بخشیده است و نشان می دهد که این یک تکنیک قابل تعمیم است که می تواند برای کارهای مختلف اعمال شود.

ساخت محصولات تجاری هوش مصنوعی تنها یک جنبه از هزینه های کلی مرتبط با سیستم های هوش مصنوعی است. یکی دیگر از اجزای مهم هزینه ها از عملیات روزانه ناشی می شود. به عنوان مثال، هر روز برای OpenAI حدود 700000 دلار هزینه دارد تا به سوالات با استفاده از ChatGPT پاسخ دهد. انتظار می رود محققان به بررسی روش هایی ادامه دهند که LLM ها را در طول آموزش مقرون به صرفه و در زمان اجرا در دسترس تر می کند.

برای محتوای بیشتر مرتبط با هوش مصنوعی، unite.ai را ببینید.

برچسب ها: chat gpt ChatGPT

آیا می توانید مدل های زبان بزرگی مانند ChatGPT را با نصف هزینه بسازید؟

پارلمان اروپا در مورد محدودیت های ChatGPT و سایر هوش مصنوعی رای می دهد

گوگل ابزارهای جدید هوش مصنوعی را در رقابت با ChatGPT و مایکروسافت منتشر می کند

گوگل ابزارهای جدید هوش مصنوعی را در رقابت با ChatGPT و مایکروسافت منتشر می کند

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

آیا می توانید مدل های زبان بزرگی مانند ChatGPT را با نصف هزینه بسازید؟

هزینه ساخت مدل های زبان بزرگ

1. منابع محاسباتی

2. مصرف انرژی

3. ذخیره سازی و مدیریت داده ها

تکنیک LiGO: هزینه ساخت مدل های زبان بزرگ را به نصف کاهش دهید

مزایای استفاده از تکنیک بهینه سازی آموزش مانند LiGO

1. آموزش سریعتر

2. منابع کارآمد

3. تعمیم

پارلمان اروپا در مورد محدودیت های ChatGPT و سایر هوش مصنوعی رای می دهد

گوگل ابزارهای جدید هوش مصنوعی را در رقابت با ChatGPT و مایکروسافت منتشر می کند

گوگل ابزارهای جدید هوش مصنوعی را در رقابت با ChatGPT و مایکروسافت منتشر می کند

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

منابع: راه اندازی آموزش AI Mercor Eyes 10B $+ ارزیابی با نرخ 450 میلیون دلار

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید