در حالی که ممکن است هوش مصنوعی احساس همه گیر کند ، در درجه اول در بخش کوچکی از 7000 زبان جهان فعالیت می کند و بخش عظیمی از جمعیت جهانی را پشت سر می گذارد. Nvidia قصد دارد این نقطه کور چشمگیر ، به ویژه در اروپا را برطرف کند.
این شرکت به تازگی مجموعه جدیدی از ابزارهای منبع باز را منتشر کرده است که با هدف دادن قدرت به توسعه دهندگان برای ایجاد گفتار با کیفیت بالا برای 25 زبان مختلف اروپایی. این شامل زبانهای اصلی است ، اما مهمتر از همه ، این زندگی را برای کسانی که اغلب از فناوری بزرگ غافل می شوند ، مانند کرواسی ، استونی و مالتیایی ، ارائه می دهد.
هدف این است که به توسعه دهندگان اجازه دهیم نوع ابزارهای صوتی را ایجاد کنند که بسیاری از ما از آنها به عنوان یک زبانه استفاده می کنند ، از چت های چند زبانه که در واقع شما را به ربات های خدمات مشتری و خدمات ترجمه ای که در چشمان چشم کار می کنند ، درک می کنند.
محور این ابتکار عمل است انبوه، یک کتابخانه عظیم از گفتار انسانی. این شامل حدود یک میلیون ساعت صوتی است که همه آنها برای کمک به آموزش هوش مصنوعی به ظرافت های تشخیص گفتار و ترجمه کمک می کنند.
برای استفاده از این داده های گفتار ، Nvidia همچنین دو مدل جدید هوش مصنوعی را برای کارهای زبانی طراحی می کند:
- Canary-1B-V2، یک مدل بزرگ که برای دقت بالا در کارهای پیچیده رونویسی و ترجمه ساخته شده است.
- parakeet-tdt-0.6b-v3، که برای برنامه های زمان واقعی طراحی شده است که سرعت همه چیز است.
اگر مشتاق هستید که به علم پشت آن شیرجه بزنید ، مقاله در مورد انبار در کنفرانس بین المللی در هلند در این ماه ارائه می شود. برای توسعه دهندگان مشتاق به کثیف شدن دست خود ، مجموعه داده ها و هر دو مدل از قبل در بغل کردن صورت در دسترس هستند.
با این حال ، جادوی واقعی در نحوه ایجاد این داده ها نهفته است. همه ما می دانیم که آموزش هوش مصنوعی به مقادیر زیادی داده نیاز دارد ، اما گرفتن آن معمولاً یک روند آهسته ، گران و کاملاً خسته کننده از حاشیه نویسی انسان است.
برای رسیدن به این موضوع ، تیم گفتگوی نگودیا – همکاری با محققان دانشگاه کارنگی ملون و Fondazione Bruno Kessler – یک خط لوله خودکار ساخت. آنها با استفاده از ابزارهای NEMO خود ، توانستند صوتی خام و بدون برچسب را بگیرند و آن را به داده های ساختاری با کیفیت بالا و با کیفیت بالا شلاق بزنند که یک هوش مصنوعی از آن می تواند یاد بگیرد.
این فقط یک دستاورد فنی نیست ؛ این یک جهش بزرگ برای شمول دیجیتال است. این بدان معناست که یک توسعه دهنده در ریگا یا زاگرب می تواند سرانجام ابزارهای هوش مصنوعی صدا را بسازد که به درستی زبان های محلی آنها را درک کند. و آنها می توانند این کار را با کارآمدتر انجام دهند. تیم تحقیقاتی دریافتند که داده های گرانشی آنها به حدی مؤثر است که برای رسیدن به سطح دقت هدف در مقایسه با سایر مجموعه داده های محبوب ، نیمی از آن را می طلبد.
دو مدل جدید این قدرت را نشان می دهند. قناری صریحاً یک جانور است و کیفیت ترجمه و رونویسی را ارائه می دهد که رقیب سه برابر اندازه خود را مدل می کند ، اما با حداکثر ده برابر سرعت. در همین حال ، پاراکت می تواند یک جلسه 24 دقیقه ای را که در یک زمان ضبط می کند ، جوید و به طور خودکار فهمید که چه زبانی صحبت می شود. هر دو مدل به اندازه کافی هوشمند هستند که بتوانند نگارشی ، سرمایه گذاری را انجام دهند و زمان بندی های سطح کلمه را ارائه دهند ، که برای ساخت برنامه های حرفه ای حرفه ای لازم است.
Nvidia با قرار دادن این ابزارهای قدرتمند و روشهای پشت سر آنها به دست جامعه جهانی توسعه دهنده ، فقط یک محصول را منتشر نمی کند. این یک موج جدید از نوآوری را آغاز می کند ، به امید ایجاد جهانی که هوش مصنوعی به زبان شما صحبت می کند ، مهم نیست که از کجا هستید.
(عکس توسط Aedrian Salazar)
همچنین ببینید: Deepseek پس از عدم موفقیت تراشه Huawei AI به Nvidia برای مدل R2 بازگردد
آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.
سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.