
ادگار سروانتس / Android Authority
چند ماه گذشته در دنیای فناوری یک گردباد بوده است. یک دقیقه از تصاویر کم کیفیت Dall-E که توسط هوش مصنوعی تولید شده است شگفت زده می شویم، اما نه چندان تحت تاثیر قرار می گیریم، لحظه ای دیگر به نوعی با Bing، موتور جستجوی جدید مورد علاقه خود، گپ می زنیم. من به سختی می توانم ادامه دهم. هر روز یک تاپیک جدید توییتر وجود دارد که یک ابزار هوش مصنوعی پیشگامانه، یک روش جدید برای استفاده از ChatGPT یا Midjourney یا یک قابلیت جدید ساخته شده در بالای API ChatGPT را نشان می دهد. و به نوعی ما در حال حاضر در ChatGPT 4 هستیم؟ اما از طریق همه اینها، یک ایده مدام به من برمی گردد: بیشتر اوقات، وقتی به صفحه خیره می شوم، به هوش مصنوعی نیازی ندارم. در عوض، من ترجیح می دهم این مهارت مکالمه مانند ChatGPT را به عنوان دستیار صوتی در بلندگوهای هوشمند Nest خود داشته باشم.
و دلیل این امر دو چیز است. یکی، دستیار گوگل همیشه در درک و پاسخ دادن به هر سوال کمی پیچیده کند بوده است و به نظر می رسد لحظه به لحظه احمقانه تر می شود. دوم، هوش مصنوعی مکالمه ای در رابط صوتی بیشتر از صفحه نمایش معنا پیدا می کند. اجازه بدهید توضیح بیشتری بدهم.
آیا از وضعیت فعلی بلندگوهای هوشمند راضی هستید؟
8 رای
دستیار گوگل، مانند الکسا و سیری، امروز کمی قدیمی به نظر می رسد
رابرت تریگز / Android Authority
در طول سالها، نقطه قوت Google Assistant همیشه توانایی آن در درک و اجرای دستورات صوتی صادر شده به زبان طبیعی بوده است. از آن بپرسید «غرور و تعصب را چه کسی نوشته است» یا «اسم نویسنده غرور و تعصب چیست» یا «نویسنده پشت غرور و تعصب کیست» و در هر سه مورد به جین آستن پاسخ خواهد داد. میتوانید دهها راه دیگر را برای بیان آن سؤال امتحان کنید و باز هم آن را به درستی دریافت خواهید کرد.
این باعث میشود Google Assistant ابزاری ارزشمند برای تنظیم یادآورها و تایمرها، افزودن جلسات، پرسیدن سوالات دانش عمومی، پخش آهنگهای خاص و کنترل خانه هوشمند باشد. برای خاموش کردن چراغها نیازی نیست دستور دقیقی را به خاطر بسپارید، فقط میتوانید آن را بهطور طبیعی بگویید.
دستیار در اجرای دستوراتی که آموزش داده شده است خوب است. اما پاسخ دادن به سوالات باز بزرگترین نقطه ضعف آن است.
اما کمی زیر سطح را حفاری کنید و تمام ترک ها نمایان می شوند. به جای پخش آهنگ اصلی که میخواهید، ممکن است یک آکوستیک، یک ریمیکس، یا – خدای نکرده – یک کاور دریافت کنید. همچنین ممکن است به شما توصیه کند که چگونه آشپزخانه خود را تمیز کنید به جای اینکه به جاروبرقی هوشمند بگویید آشپزخانه را همانطور که قصد دارید تمیز کنید.
با این حال، هیچ چیز به اندازه اتفاقی که وقتی از Assistant یک سوال بدون پایان میپرسید، وحشتناک نیست. شما می شنوید که نقل قول بی پایانی را با ذکر یک سایت خاص مطرح می کند که ممکن است به درستی به سوال شما پاسخ دهد یا ندهد. اساساً، اولین قطعه نتیجه جستجوی Google را بدون در نظر گرفتن زمینه برای شما می خواند. خیلی پرمخاطب است، اغلب گیج می شود و اغلب قادر به حفاری چند لایه برای یافتن پاسخ نیست. بگذارید سه مثال را به شما نشان دهم که اینها را نشان می دهد.
دستیار خیلی پرحرف است، اغلب گیج می شود و اغلب قادر به یافتن پاسخ نیست.
مثال 1 – گیج شده: من و شوهرم در مورد یک سفر احتمالی به چک بحث میکردیم و به این فکر میکردیم که آیا سیستم ریلی قوی است، که سفرهای یک روزه و حمل و نقل را آسان میکند. من پرسیدم که آیا “سفر با قطار در جمهوری چک آسان است” و از مکان فعلی من به من مسیرهایی به جمهوری چک داد. بیان مجدد به “درون” به جای “در” کمکی نکرد.
مثال 2 – قادر به پاسخ گویی نیستم: داشتم با تنظیمات دوربین Olympus خود کلنجار می رفتم. به منویی برخوردم که اصلا توضیحی نداشت. گزینه ها LF، LN، MN و SN بودند. بنابراین از Nest Audio در مورد آن پرسیدم و پاسخش این بود که نمی تواند تنظیمات را با هم مقایسه کند، سپس از من پرسید که آیا می خواهم تفاوت را بدانم (اوه، سوالم را تکرار می کنم؟) گفتم بله و فقط متوقف شد. بی پاسخ.
مثال 3 – پرمخاطب: بعد از سفر اخیرم به بارسلون، در مورد سیستم سیاسی اسپانیا فکر می کردم، بنابراین از گوگل پرسیدم که آیا پارلمان دارد یا خیر. پاسخ، تکهای از وبسایت بود که با دو مجلس شروع شد و سپس به من گفت که آنها به عنوان یک نظام پارلمانی دو مجلسی به حساب میآیند.
اکنون پاسخهای یک دستیار صوتی سنتی بالا را با آنچه که یک مدل زبان بزرگ مانند ChatGPT میتواند ارائه دهد، مقایسه کنید. ChatGPT هدف من را از همان سوال حمل و نقل در چک درک کرد، با یک بله شروع کرد تا به من پاسخ فوری بدهد، سپس به توضیح مزایای سیستم راه آهن پرداخت. چون کمی بیشتر از آنچه من می خواستم صحبت می کرد، خروجی آن را در سوالات بعدی به یک جمله محدود کردم. و هر دوی آنها را فهمید، توضیح داد که تنظیمات دوربین چیست و با یک “بله” برای توضیح وضعیت پارلمان اسپانیا شروع کرد.
هیچ دستوری وجود ندارد که بتواند پاسخ گوگل را به یک جمله محدود کند یا آن را مجبور کند که زمان گپ زدن خود را کاهش دهد. همچنین، همه دستیارهای صوتی فعلی قادر به ترکیب یک پاسخ از چندین منبع نیستند، که یکی از نقاط قوت ChatGPT و مدل های زبان جایگزین است.
هوش مصنوعی مکالمه: تعاملات روی صفحه در مقابل صدا
آدام مولینا / Android Authority
هزاران و هزاران کاربرد بالقوه برای هوش مصنوعی مکالمه ای مانند ChatGPT وجود دارد، اما یکی از جالب ترین مواردی که من برای استفاده خودم پیدا کرده ام، توانایی آن در ترکیب پاسخ از منابع متعدد و در عین حال درک محدودیت های یک درخواست است. میتوانید کاری کنید که آنطور که در مثال بالا نشان دادم کمتر صحبت کند، از آن بخواهید مفاهیم پیچیدهای را توضیح دهد، مثل اینکه شما پنج ساله هستید، یا محدودیتهایی به آن بدهید تا جستجو را دقیقاً با آنچه میخواهید مطابقت دهد.
به همین دلیل است که تعامل با این نوع هوش مصنوعی از طریق صدا حتی منطقی تر است. وقتی صفحهای در جلوی خود دارم، میتوانم در یک ثانیه چندین پاسخ را مرور کنم، به سرعت بگویم که کدام یک نامربوط هستند، و فقط پاسخهایی را که میخواهم دربارهشان بیشتر بشنوم گسترش دهم. وقتی از دستورات صوتی استفاده میکنم، چارهای جز گوش دادن به یک پاسخی که دستیار Google به من میدهد، ندارم و همانطور که قبلاً مشخص کردیم، این پاسخ گاهی اوقات میتواند رضایتبخش نباشد.
وقتی به یک صفحه نمایش نگاه میکنم، میتوانم نتایج زیادی را در یک ثانیه مرور کنم. وقتی از صدا استفاده می کنم، فقط می توانم به یک پاسخی که می گیرم گوش دهم. در حال حاضر، این پاسخ به ندرت به اندازه کافی خوب است.
منظورم این است که گوگل کاملاً میتواند به من بگوید بازی بعدی رئال مادرید چه زمانی است، رئیسجمهور فرانسه کیست، یا مککلانگ چقدر قد دارد، اما من جرأت نمیکنم از آن بپرسم که آیا میتوانم با لیکور ماست و آمارتو کوکتل درست کنم. اما بدون سفیده تخم مرغ، یا اگر قطار مستقیمی از پاریس به رم وجود دارد. حتی قبل از اینکه تلاش کنم، میتوانم تمام راههایی را تصور کنم که این درخواستها را اشتباه میفهمد یا به هم میریزد، بنابراین مجبورم میکنم تلفنم را بیرون بیاورم و یک جلسه طولانی جستجوی Google یا Bing برای پاسخ به آنها شروع کنم.
و موضوع همین است. اگر تمام کاری که دستیار گوگل انجام می دهد این است که در حین خواندن یک قطعه از اولین نتیجه جستجو برای من دو دقیقه صحبت کند، پس وقت من را تلف می کند. ترجیح می دهم تلفنم را بیرون بیاورم و آنجا جستجو کنم. حداقل من می توانم بیش از یک نتیجه را در چند ثانیه مرور کنم.
من نمی خواهم گوگل را در اینجا متمایز کنم. پیاده سازی دستیار صوتی کنونی آمازون الکسا و اپل سیری نیز نمی تواند در زمان تحقیق من صرفه جویی کند و من را مجبور نمی کند بیشتر از گوگل از آنها استفاده کنم. و این دقیقا همان جایی است که من امروز با هر دستیار صوتی ایستاده ام: من فقط از آن برای برخی از کنترل های خانه هوشمند و ابتدایی ترین جستجوها و درخواست ها استفاده می کنم.
اگر یک دستیار صوتی هوش مصنوعی داشتم که محتوا را از منابع بسیاری ترکیب می کرد و به من پاسخی کوتاه و رضایت بخش می داد، دوباره و دوباره از آن استفاده می کردم.
اما اگر یک دستیار صوتی هوش مصنوعی مانند ChatGPT داشتم که محتوا را از چندین منبع ترکیب میکرد و هر بار که چیزی از آن میپرسیدم پاسخی کوتاه و رضایتبخش به من میداد، دوباره و دوباره به آن مراجعه میکردم. ترجیح می دهم این کار را بکنم و با کاری که انجام می دهم درگیر بمانم تا اینکه گوشیم را بیرون بیاورم، به صفحه ای نگاه کنم و نیم ساعت در آن گم شوم.
ChatGPT کامل نیست، اما من یک دستیار صوتی مانند آن را در بلندگوهای Nest میخواهم
ریتا الخوری / Android Authority
اگرچه مدتی است که از فضایل ChatGPT ستایش می کنم، اما نمی خواهم آن را در وضعیت فعلی خود در اسپیکر Nest یا هر بلندگوی هوشمند دیگری داشته باشم. دادههای آموزشی آن قدیمی است، اغلب بسیار پرمخاطب است، مگر اینکه خروجی آن را به یک جمله محدود کنید (اما باز هم، من متشکرم که میتوانم این کار را انجام دهم)، منابعی را ذکر نمیکند، دادههای آن در انگلیسی نسبت به سایر زبانها بسیار برتر است، و بدیهی است که نمی تواند خانه هوشمند من را کنترل کند یا رویدادهایی را به تقویم من اضافه کند، از جمله محدودیت های دیگر.
چیزی که من می خواهم ببینم معادل گوگل است. اگر می خواهید آن را Google Bard یا Assistant 2.0 بنامید، اما در اینجا نحوه تعامل صوتی خود با آن را به تصویر می کشم:
- باید بتواند همان درخواستهایی را که نسخه فعلی انجام میدهد (خانه هوشمند، تبدیلها، یادآوریها، تقویم و غیره…) رسیدگی کند.
- همچنین باید یک هوش مصنوعی با زبان طبیعی هوشمندتر ارائه دهد که محتوا را در چندین منبع از وب ترکیب می کند و هر محدودیت یا پارامتری را که من آن را محدود می کنم در نظر می گیرد.
- برای اختصار و فوریت، در پاسخهای آن نباید نام منابع را با صدای بلند بیان کرد و باید به یک جمله محدود شود (مگر اینکه خواسته شود). اما، من باید بتوانم از آن برای جزئیات بیشتر و توضیحات طولانی تر بخواهم.
- و برای دقت و یادگیری بیشتر، همیشه باید یک اعلان به تلفن من با پاسخی که ارائه کرده، منابعی که استفاده کرده است و گزینه ای برای ضربه زدن برای جستجوی کامل و کسب اطلاعات بیشتر برای من ارسال کند.
- همچنین باید بتوانم آن را کنترل کنم و استفاده آن را از منابع خاص محدود کنم تا از محتوایی که به نظرم بی کیفیت یا نادرست می دانم جلوگیری کنم.
این نوع تکامل هوش مصنوعی دستیار صوتی است که من آن را تایید می کنم و شروع به استفاده از آن می کنم. فقط زمان نشان خواهد داد که آیا گوگل همه چیز را به این سمت خواهد برد یا مسیر دیگری را انتخاب خواهد کرد.