توضیح داده شده | ترانسفورماتور، مدل ML که ChatGPT را تغذیه می کند چیست؟

یادگیری ماشینی (ML)، زیرشاخه‌ای از هوش مصنوعی، به رایانه‌ها می‌آموزد تا با ارائه نمونه‌هایی از ورودی‌ها و خروجی‌های مورد نظر، وظایف مبتنی بر داده‌های ساختاریافته، زبان، صدا یا تصاویر را حل کنند. این با برنامه نویسی رایانه ای سنتی متفاوت است، جایی که برنامه نویسان دنباله ای از دستورالعمل های خاص را می نویسند. در اینجا، مدل ML یاد می گیرد برای تولید خروجی های مطلوب با تنظیم دستگیره های متعدد آن – اغلب در میلیون ها.

ML سابقه ای در توسعه روش هایی با ویژگی های دست ساز دارد که ممکن است فقط برای مشکلات خاص و محدود کار کند. چندین نمونه از این دست وجود دارد. در متن، طبقه بندی یک سند به عنوان علمی یا ادبی ممکن است با شمارش تعداد دفعاتی که کلمات خاصی ظاهر می شوند حل شود. در صدا، متن گفتاری با تبدیل صدا به نمایش فرکانس زمانی تشخیص داده می شود. در تصاویر، با بررسی وجود الگوهای لبه‌شکل خاص خودرو، ممکن است یک خودرو پیدا شود.

چنین ویژگی‌های دست ساز با طبقه‌بندی‌کننده‌های یادگیری ساده یا کم عمق که معمولاً تا ده‌ها هزار دستگیره دارند، ترکیب می‌شوند. در اصطلاح فنی به این دستگیره ها پارامتر می گویند.

شبکه های عصبی عمیق

در بخش اول دهه 2010، شبکه‌های عصبی عمیق (DNN) با طوفان ML را اشغال کردند و جایگزین خط لوله کلاسیک ویژگی‌های دست ساز و طبقه‌بندی‌کننده‌های ساده شدند. DNN ها یک سند یا تصویر کامل را دریافت می کنند و یک خروجی نهایی را تولید می کنند، بدون اینکه نیازی به تعیین روش خاصی برای استخراج ویژگی ها باشد.

در حالی که این مدل های عمیق و بزرگ در گذشته وجود داشته اند، اندازه بزرگ آنها – میلیون ها پارامتر – مانع استفاده از آنها شده است. ظهور مجدد DNN ها در دهه 2010 به در دسترس بودن داده های مقیاس بزرگ و تراشه های محاسباتی موازی سریع به نام واحدهای پردازش گرافیکی نسبت داده می شود.

علاوه بر این، مدل‌های مورد استفاده برای متن یا تصاویر هنوز متفاوت بودند: شبکه‌های عصبی تکراری در درک زبان رایج بودند در حالی که شبکه‌های عصبی کانولوشنال (CNN) در بینایی کامپیوتری، یعنی درک ماشینی از دنیای بصری محبوب بودند.

‘ توجه تنها چیزی است که نیاز دارید

در مقاله‌ای پیشگام با عنوان «توجه همه آن چیزی است که شما نیاز دارید» که در سال 2017 منتشر شد، تیمی در Google ترانسفورماتورها را پیشنهاد کردند – یک معماری DNN که امروزه در همه روش‌ها محبوبیت پیدا کرده است: تصویر، صدا و زبان. مقاله اصلی ترانسفورماتورهایی را برای وظیفه ترجمه یک جمله از یک زبان به زبان دیگر پیشنهاد کرد، مشابه کاری که Google Translate هنگام تبدیل از مثلا انگلیسی به هندی انجام می دهد.

ترانسفورماتور یک شبکه عصبی دو بخشی است. بخش اول یک «رمزگذار» است که جمله ورودی را در زبان مبدأ (مثلاً انگلیسی) وارد می‌کند. دومی “رمزگشا” است که جمله ترجمه شده را در زبان مقصد (هندی) تولید می کند.

رمزگذار هر کلمه در جمله مبدأ را به یک شکل عددی انتزاعی تبدیل می کند که معنای کلمه را در متن جمله می گیرد و آن را در یک بانک حافظه ذخیره می کند. درست مانند یک شخص که می نویسد یا صحبت می کند، رمزگشا یک کلمه را در یک زمان با اشاره به آنچه تاکنون تولید شده است و با نگاه کردن به بانک حافظه برای یافتن کلمه مناسب تولید می کند. هر دوی این فرآیندها از مکانیزمی به نام «توجه» استفاده می‌کنند، از این رو نام مقاله به آن می‌رسد.

یک پیشرفت کلیدی نسبت به روش های قبلی، توانایی ترانسفورماتور برای ترجمه صحیح جملات طولانی یا پاراگراف ها است.

استفاده از ترانسفورماتورها متعاقباً منفجر شد. برای مثال، حرف بزرگ «T» در ChatGPT مخفف «ترانسفورماتور» است.

ترانسفورماتورها همچنین در بینایی کامپیوتری محبوب شده اند: آنها به سادگی یک تصویر را به تکه های کوچک مربعی برش می دهند و آنها را مانند کلمات در یک جمله ردیف می کنند. با انجام این کار و پس از آموزش بر روی مقادیر زیاد داده، یک ترانسفورماتور می تواند عملکرد بهتری نسبت به CNN ها ارائه دهد. امروزه مدل‌های ترانسفورماتور بهترین رویکرد را برای طبقه‌بندی تصویر، تشخیص و تقسیم‌بندی اشیا، تشخیص عمل و بسیاری از وظایف دیگر تشکیل می‌دهند.

توانایی ترانسفورماتورها برای جذب هر چیزی برای ایجاد مدل‌های بینایی و زبان مشترک مورد سوء استفاده قرار گرفته است که به کاربران امکان می‌دهد یک تصویر را جستجو کنند (مثلاً جستجوی تصویر Google)، یک تصویر را توصیف کنند و حتی به سؤالات مربوط به تصویر پاسخ دهند.

“توجه” چیست؟

توجه در ML به یک مدل اجازه می دهد تا یاد بگیرد که چقدر باید به ورودی های مختلف اهمیت داده شود. در مثال ترجمه، توجه به مدل اجازه می‌دهد تا هنگام تصمیم‌گیری کلمه بعدی، کلمات را از بانک حافظه انتخاب یا وزن کند. در حین توصیف یک تصویر، توجه به مدل‌ها اجازه می‌دهد تا در هنگام تولید کلمه بعدی به قسمت‌های مربوطه تصویر نگاه کنند.

یکی از جنبه‌های جذاب مدل‌های مبتنی بر توجه، توانایی آن‌ها برای کشف خود، با تجزیه بسیاری از داده‌ها است. در مورد ترجمه، هرگز به مدل گفته نمی شود که کلمه “سگ” در انگلیسی به معنای “कुत्ता” در هندی است. در عوض، با دیدن چندین جفت جملات آموزشی که در آن «سگ» و «कुत्ता» با هم ظاهر می شوند، این ارتباط ها را پیدا می کند.

مشاهدات مشابهی برای شرح تصویر اعمال می شود. برای تصویری از “پرنده ای که بر فراز آب پرواز می کند”، هرگز به مدل گفته نمی شود که کدام ناحیه از تصویر با “پرنده” و کدام “آب” مطابقت دارد. درعوض، با آموزش چندین جفت تصویر-کپشن با کلمه “پرنده”، الگوهای رایجی را در تصویر کشف می کند تا چیزی که در حال پرواز است را با “پرنده” مرتبط کند.

ترانسفورماتورها مدل های توجه روی استروئیدها هستند. آنها دارای چندین لایه توجه در داخل رمزگذار هستند تا زمینه معناداری را در سراسر جمله ورودی یا تصویر و از رمزگشا به رمزگذار هنگام تولید یک جمله ترجمه شده یا توصیف یک تصویر ارائه دهند.

مقیاس میلیارد و تریلیون

در سال گذشته، مدل‌های ترانسفورماتور بزرگ‌تر شده‌اند و با داده‌های بیشتری نسبت به قبل تمرین می‌کنند. هنگامی که این غول پیکرها بر روی متن نوشته شده آموزش می بینند، مدل های زبان بزرگ (LLM) نامیده می شوند. ChatGPT از صدها میلیارد پارامتر استفاده می کند در حالی که GPT-4 از صدها تریلیون پارامتر استفاده می کند.

در حالی که این مدل‌ها روی کارهای ساده مانند پر کردن جاهای خالی یا پیش‌بینی کلمه بعدی آموزش داده می‌شوند، اما در پاسخ به سؤالات، ساختن داستان، خلاصه‌سازی اسناد، نوشتن کد و حتی حل مشکلات کلمه ریاضی به صورت مرحله‌ای بسیار خوب هستند. ترانسفورماتورها نیز پایه و اساس هستند مولد مدل هایی که تصاویر و صداهای واقعی ایجاد می کنند. کاربرد آنها در حوزه های مختلف، ترانسفورماتورها را به یک مدل بسیار قدرتمند و جهانی تبدیل می کند.

با این حال، نگرانی هایی وجود دارد. جامعه علمی هنوز متوجه نشده است که چگونه این مدل ها را به دقت ارزیابی کند. همچنین مواردی از “توهم” وجود دارد که در آن مدل ها ادعاهای مطمئن اما اشتباهی دارند. ما باید فوراً به نگرانی‌های اجتماعی، مانند حفظ حریم خصوصی داده‌ها و نسبت دادن به کارهای خلاقانه، که در نتیجه استفاده از آنها به وجود می‌آیند، رسیدگی کنیم.

در عین حال، با توجه به پیشرفت فوق‌العاده، تلاش‌های مداوم برای ایجاد حفاظ‌هایی که استفاده از آن‌ها را هدایت می‌کند، و کار بر روی استفاده از این مدل‌ها برای نتایج مثبت (مثلاً در مراقبت‌های بهداشتی، آموزشی و کشاورزی)، خوش‌بینی بی‌جا نخواهد بود.

دکتر ماکارند تاپسوی، دانشمند ارشد یادگیری ماشین در Wadhwani AI، یک سازمان غیرانتفاعی در استفاده از هوش مصنوعی برای منافع اجتماعی، و استادیار گروه بینایی کامپیوتر در IIIT حیدرآباد، هند است.

برچسب ها: chat gpt ChatGPT

توضیح داده شده | ترانسفورماتور، مدل ML که ChatGPT را تغذیه می کند چیست؟

در اینجا بهترین راه برای استفاده از فناوری جدید Chat GPT آورده شده است

چه چیزی میخواهید بدانید

چه چیزی میخواهید بدانید

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Google یک “بازیگر بد” است که می گوید مدیرعامل مردم ، این شرکت را به سرقت محتوا متهم می کند

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

توضیح داده شده | ترانسفورماتور، مدل ML که ChatGPT را تغذیه می کند چیست؟

شبکه های عصبی عمیق

در اینجا بهترین راه برای استفاده از فناوری جدید Chat GPT آورده شده است

چه چیزی میخواهید بدانید

چه چیزی میخواهید بدانید

دیدگاهتان را بنویسید لغو پاسخ

You might also like

Google یک “بازیگر بد” است که می گوید مدیرعامل مردم ، این شرکت را به سرقت محتوا متهم می کند

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

VMware از مسیر AI شروع می شود ، اما این تجارت اصلی نیست

ویژگی جدید ترجمه زنده اپل برای AirPods در هنگام راه اندازی در اتحادیه اروپا در دسترس نخواهد بود

آزمایشگاه ماشین آلات فکر می کند مدل های هوش مصنوعی را سازگارتر کند

Humanoids ، Avs ، و آنچه در سخت افزار AI بعدی در اختلال 2025 وجود دارد

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید