اگر از دستیار صوتی روزمره تلفن هوشمند خود بپرسید که آیا از ChatGPT می ترسد، معمولاً پاسخ جالب یا آموزنده ای دریافت نمی کنید. پس آیا این یک مشکل است؟
پردازش زبان طبیعی (NLP)، زمینه ای از تحقیقات هوش مصنوعی که منجر به کاربردهای عملی مانند دستیارهای صوتی و مترجمان زبان شد، اکنون به نظر می رسد با ورود مدل های زبان بزرگ (LLM) مانند GPT-4 OpenAI در معرض تهدید قرار گرفته است. پست اخیر در r/Machinelearning Reddit این احساسات را خلاصه کرد و از آن پرسید که آیا دیگران شاهد وحشت در سازمان های NLP شرکت های بزرگ فناوری هستند؟
یانگ فنگ جی، استادیار علوم کامپیوتر در دانشگاه ویرجینیا، پریشانی مشابهی را در بین دانشگاهیان و دانشجویان مشاهده کرده است و اخیراً سعی کرده است با اشاره به زمینههایی از تحقیقات NLP که LLM برای آنها مناسب نیستند، این ترسها را فرو نشاند. جی می گوید: «حتی اگر وحشت نباشد، حداقل می توانیم بگوییم که این احساس پیچیده است.
محققان از ناشناخته های LLM می ترسند.
جی به توانایی محققان برای انتخاب روشهای جدید همانطور که به نظر میرسد ایمان دارد، اما موفقیت مدلهای اخیر LLM از OpenAI، آچاری را در کارها انداخته است. LLM ها قادر به انجام بسیاری از وظایف هستند، اما موفق ترین LLM ها پشت درهای بسته نگهداری می شوند. OpenAI قابلیت های GPT-4، مدل اخیر LLM OpenAI را توضیح نداده است و توسعه دهندگان فقط می توانند از طریق API به آن دسترسی داشته باشند.
جی میگوید: «شخصاً، بدتر این است که ما حتی نمیدانیم که آیا این فقط یک مدل زبان است یا خیر. او اشاره میکند که چتباتهای مبتنی بر LLM مانند ChatGPT، Bing Chat و Google Bard نتایجی فراتر از یک LLM تولید میکنند. آنها ظاهر می شوند قابلیت های خود را در طول زمان به روز کنند و داده های جدید را از اینترنت دریافت می کند (اغلب علیرغم ادعای مدل، زمانی که از آن خواسته می شود که فاقد این توانایی است). مدلهای هوش مصنوعی معمولاً برای عمل بر روی دادههای جدید به آموزش نیاز دارند. جی میگوید: «اما اگر این یک سیستم نرمافزاری با LLM بهعنوان یک جزء اصلی باشد، آنوقت میتوان آن چیزها را به راحتی برطرف کرد.
بینگ چت میتواند با اطلاعاتی که اخیراً به صورت آنلاین ارسال شده است، به درخواستها پاسخ دهد. روش های مورد استفاده برای انجام این امر مبهم هستند. مایکروسافت
مبهم بودن LLM های OpenAI و Google محققان را در تنگنا قرار می دهد. این مدلها به وضوح در بسیاری از وظایف از تحقیقات NLP گذشته بهتر عمل میکنند، اما افراد خارجی باید حدس بزنند که چگونه به این هدف میرسند. جی این را به عنوان «شکاف عملکرد مرموز» بین مدلهای منبع بسته و منبع باز توصیف میکند.
با وجود این، جی فضای زیادی برای تحقیقات NLP می بیند که خارج از قابلیت های LLM است. او اشاره می کند که چگونه LLM ها به مبارزه با نگرانی های اخلاقی ادامه می دهند که آنها را برای برخی سازمان ها نامناسب می کند. تنظیم دقیق آنها نیز دشوار است و می توانند نتایج غیرمنتظره ای را نشان دهند. این مشکلات در هنگام استفاده از طوفان مغزی دستور پخت کیک یا ارسال ایمیل به یک دوست، احتمالاً آسیبی به همراه ندارند، اما «وقتی مردم شروع به برخورد جدی با این سیستمها میکنند و از آنها برای انجام کار واقعی استفاده میکنند، به مانع اصلی تبدیل میشوند».
سیری مرده است. زنده باد سیری
افزایش شهابی LLM ها فقط علمی نیست. اپل، مایکروسافت و آمازون میلیاردها دلار روی دستیارهای صوتی مربوطه خود سرمایه گذاری کردند، که هر کدام نوید دستیارهای هوشمند و فعال صوتی را دادند که به همراهان مفیدی تبدیل خواهند شد. تلاش نتیجه نداده است دورهای اخیر اخراجهای آمازون شامل کاهش عمده تیمهایی بود که بر روی الکسا کار میکردند و طبق گزارشها، در سال 2022 10 میلیارد دلار ضرر کردند. مدیر عامل مایکروسافت، ساتیا نادلا، اخیراً دستیاران صوتی را «احمق مثل سنگ» خواند و کورتانا کاملاً رها شده است. تیمی که روی دستیار گوگل کار می کند، ظاهراً برای کمک به بارد سازماندهی مجدد می شود. فقط سیری اپل دوام می آورد، اگرچه پیشرفت ها در سال های اخیر به قدری کاهش یافته است.
همانطور که محققان توسط قدرت LLM غافلگیر شدند، شرکت های فناوری برای طیف گسترده ای از کاربردهای خود آماده نبودند. چترباتهای مبتنی بر LLM مانند ChatGPT، Google Bard و Bing Chat کارهایی را انجام میدهند که دستیاران صوتی هرگز قادر به انجام آنها نبودهاند (مانند نوشتن یک ایمیل از ابتدا)، و این کار را با زبانی واقعیتر و جذابتر از صدای پاسخهای آماده انجام میدهند. دستیاران ارائه می دهند.
کورتانا یکی از اجزای کلیدی اکوسیستم ویندوز بود، اما مدیر عامل شرکت ساتیا نادلا اخیراً دستیار صوتی را «گنگ مانند سنگ» توصیف کرده است. مائوریتزیو پسچه
نوح گیفت، بنیانگذار آزمایشگاه های هوش مصنوعی عملی، این را یک تغییر اساسی می داند. Gift میگوید: «برای سالها تمرکز در علم داده بر تنظیم هایپرپارامترها، تمیز کردن دادهها، و اساساً تمرکز بر تحقیق و تکنیک در مقابل ارزش کسبوکار، همانطور که در سایتهایی مانند Stack Overflow مشهود است، وجود داشته است. در کتاب اخیری که نوشتم، MLOs عملی، پیشبینی کردم که علم داده کمتر و مدلهای بیشتری توسط سازمانهای بزرگ ساخته میشود، و این تا حد زیادی در حال وقوع است. اگر در شرکتی هستید که کار NLP را انجام می دهد که به تولید نرسیده است، بله، احتمالاً به درستی نگران این هستید که کار شما دیگر مهم نباشد.
اما هنوز سنگ قبر سیری را حکاکی نکنید. تحقیقات NLP حیاتی است، حتی اگر استراتژی اجرای آن در حال تکامل باشد.
چرخش سریع مایکروسافت به سمت هوش مصنوعی نمونه ای از این در عمل است. همکاری این شرکت با OpenAI منجر به اعلامیه های متعددی از محصولات مبتنی بر GPT از جمله Github Copilot، Bing Chat و Microsoft 365 Copilot شده است. مایکروسافت هنوز دستیار صوتی جدیدی را معرفی نکرده است، اما توسعه دهندگان شخص ثالث پلاگین های مرورگر را معرفی کرده اند که این قابلیت را در ChatGPT تقویت می کند. انتشار رسمی پلاگینهای ChatGPT توسط OpenAI، که در حال حاضر به صورت محدود منتشر شده است، احتمالاً دریچههایی را برای دستیارهای صوتی سفارشیسازی شده باز خواهد کرد.
“اگر در شرکتی هستید که کار NLP انجام می دهد که به تولید نرسیده است، بله، احتمالاً به درستی نگران این هستید که کار شما دیگر مهم نباشد.”
– نوح گیفت، بنیانگذار آزمایشگاه هوش مصنوعی عملگرا
گیفت میگوید: «من فکر نمیکنم صدا اصلاً بنبست باشد، و در واقع با ورود LLMهای جدید به سمت محصولات مصرفی، به طرز چشمگیری بهبود خواهد یافت. مشکل کلیدی صدا در ابتدا ممکن است این باشد که این پروژه ها به خوبی فناوری استفاده شده توسط OpenAI و دیگر ارائه دهندگان فناوری LLM در حال ظهور نیستند. من می بینم که استفاده از LLM متنی و صوتی بازارهای بزرگی را برای فناوری آنها ایجاد می کند.
از مقالات سایت شما
مقالات مرتبط در سراسر وب