Soundhound AI ، که در حال حاضر یک بازیکن اصلی در دستیاران صوتی است ، اکنون به فناوری خود یک جفت چشم می دهد.
تصور کنید که از یک نقطه عطف عبور می کنید و بدون بیرون کشیدن تلفن خود ، از ماشین خود سؤال کنید ، “آن ساختمان آنجا چیست؟” و دریافت یک پاسخ فوری این همان چیزی است که AI Soundhound در حال ساخت است.
با راه اندازی Vision AI ، سیستم جدید Soundhound Soundhound را با صدا ترکیب می کند تا روشی بسیار باهوش تر و طبیعی تر برای تعامل با فناوری ایجاد کند. ایده این است که از نحوه عملکرد ما به عنوان انسان تقلید کنیم. ما فقط به کسی گوش نمی دهیم ، بلکه حرکات آنها و آنچه را که آنها به دنبال آن هستند نیز می بینیم.
Soundhound با آوردن همین درک متنی به هوش مصنوعی ، امیدوار است که با تجربه های کاملاً ناامیدکننده و غالباً ناامید کننده ای که با بسیاری از دستگاه های هوشمند امروزی داریم ، صاف کند. این شرکت برنامه های دنیای واقعی را هدف قرار داده است که در آن این حس ترکیبی می تواند تفاوت بزرگی ایجاد کند ، خواه در ماشین بعدی شما باشد ، در رستوران رستوران یا یک طبقه کارخانه.
Keyvan Mohajer ، مدیرعامل Soundhound AI ، گفت: “در Soundhound ، ما معتقدیم که آینده AI فقط چند حالته نیست-عمیقاً یکپارچه ، پاسخگو است و برای تأثیرگذاری در دنیای واقعی ساخته شده است.
“با Vision AI ، ما رهبری خود را در صدا و هوش مصنوعی مکالمه گسترش می دهیم تا چگونگی تعامل انسان با محصولات و خدمات ارائه شده و استفاده شده توسط مشاغل را تعریف کنیم.”
بنابراین ، چگونه کار می کند؟ Vision AI یک خوراک زنده را از یک دوربین می گیرد و آن را با فناوری صوتی این شرکت ، که در حال حاضر در درک گفتار طبیعی برتری دارد ، فیوز می کند. با پردازش آنچه می بیند و آنچه در همان زمان می شنود ، سیستم می تواند قصد واقعی کاربر را به گونه ای درک کند که یک دستیار صوتی ساده هرگز نتواند.
به یک مکانیک با عینک هوشمند فکر کنید که به سادگی می تواند به یک قسمت موتور نگاه کند و از دستورالعمل ها درخواست کند ، بدون اینکه ابزارهای خود را پایین بیاورید ، راهنمایی های تصویری و صوتی فوری را دریافت کنید. در یک فروشگاه ، یک کارمند می تواند فقط با نگاه کردن به آنها ، قفسه ها را اسکن کند تا تعداد موجودی موجودی را بدست آورد. برای بقیه ما ، این ممکن است به معنای یک کیوسک درایو باشد که از لحاظ بصری سفارش ما را روی صفحه نمایش در لحظه ای که می گوییم تأیید می کند.
یکی از بزرگترین مشکلات فنی در ایجاد چنین سیستمی اطمینان از عناصر صوتی و تصویری کاملاً هماهنگ است. هرگونه تاخیر توهم یک گفتگوی طبیعی را خرد می کند.
Pranav Singh ، VP مهندسی در Soundhound AI ، اظهار داشت: “با Vision AI ، ما در حال تشخیص بصری و هوش مکالمه در یک جریان هماهنگ و هماهنگ هستیم. هر قاب ، هر هدف ، در همان اکوسیستم تفسیر می شود – تجربه های کاربر طبیعی تر که در سراسر سطوح از کیوس ها به آرایه های جاسازی شده می پردازند.
“این نوآوری در تقاطع اطلاعات و اعدام است ، ارائه می دهد هوش مصنوعی که آنچه را می بینید ، می شنوید ، آنچه را که می گویید می شنود و در حال حاضر پاسخ می دهد.”
برای مشاغل اتخاذ این فناوری ، وعده ارائه خدمات سریعتر ، اشتباهات کمتری و مشتریان شادتر است. این در مورد از بین بردن اصطکاک و ایجاد فناوری کمتر مانند ابزاری است که باید برای کار کردن داشته باشید و بیشتر شبیه شریک زندگی است که به شما در انجام کارها کمک می کند.
این قابلیت بصری جدید تنها Soundhound ارتقاء در حال چرخش نیست. این شرکت همچنین اخیراً با بروزرسانی جدید ، آملیا 7.1 ، “مغز” سیستم خود را بهبود بخشید. این پیشرفت باعث می شود تا عوامل هوش مصنوعی خود سریعتر ، دقیق تر و به مشاغل کنترل و شفافیت بیشتری نسبت به نحوه کار خود می دهد.
Soundhound با ترکیب دید و صدا ، قصد دارد ما را به دنیایی نزدیکتر کند که در تعامل با هوش مصنوعی به همان اندازه صحبت با شخص دیگری احساس راحتی و شهودی داشته باشد.
(عکس توسط کریستین لو)
همچنین ببینید: انستیتوی آلن تورینگ: علوم انسانی برای آینده هوش مصنوعی مهم است
آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.
سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.