ابزارهای رونویسی گفتار هوش مصنوعی در حال دستیابی به رقابت با تیم Qwen Alibaba است که از مدل QWEN3-ASR-FLASH رونمایی می کند.
ساخته شده بر روی اطلاعات قدرتمند QWEN3-OMNI و با استفاده از یک مجموعه داده عظیم با ده ها میلیون ساعت داده گفتار ، این فقط یک مدل تشخیص گفتار هوش مصنوعی نیست. این تیم می گوید این طراحی برای ارائه عملکرد بسیار دقیق ، حتی در صورت مواجهه با محیط های آکوستیک دشوار یا الگوهای پیچیده زبان طراحی شده است.
بنابراین ، چگونه در مقابل رقابت قرار می گیرد؟ داده های عملکرد ، از آزمایشات انجام شده در آگوست 2025 ، نشان می دهد که بسیار چشمگیر است.
در یک تست عمومی برای استاندارد چینی ، QWEN3-ASR-FLASH با نرخ خطا فقط 3.97 درصد به دست آورد ، و رقبای خود را مانند Gemini-2.5-Pro (8.98 ٪) و GPT4O-Transcrib (15.72 ٪) در پی آن قرار داد و نوید ابزارهای رونویسی گفتار هوش مصنوعی را نشان داد.
QWEN3-ASR-FLASH همچنین با توجه به میزان خطا 3.48 درصد ، در رسیدگی به لهجه های چینی مهارت داشت. در انگلیسی ، این امتیاز 3.81 درصد رقابتی را به دست آورد ، دوباره به راحتی 7.63 درصد Gemini و 8.45 درصد GPT4O را شکست داد.
اما جایی که واقعاً سر می چرخد در یک منطقه بسیار دشوار است: رونویسی موسیقی.
هنگامی که وظیفه تشخیص اشعار از آهنگ ها را داشت ، QWEN3-ASR-FLASH نرخ خطای فقط 4.51 درصد را ارسال کرد که این به مراتب بهتر از رقبای خود است. این توانایی درک موسیقی در تست های داخلی در ترانه های کامل تأیید شد ، جایی که میزان خطای 9.96 درصد را به دست آورد. پیشرفت بسیار زیاد در 32.79 درصد از Gemini-2.5-Pro و 58.59 درصد از GPT4O-Transcrib.
فراتر از دقت چشمگیر آن ، این مدل برخی از ویژگی های نوآورانه را برای ابزارهای رونویسی AI نسل بعدی به جدول می آورد. یکی از بزرگترین تغییر دهنده های بازی ، تعصب متنی انعطاف پذیر آن است.
روزهای پر دردسر قالب بندی لیست کلمات کلیدی را فراموش کنید ، این سیستم به کاربران امکان می دهد متن پس زمینه مدل را تقریباً در هر قالب تغذیه کنند تا نتایج سفارشی دریافت کنند. شما می توانید یک لیست ساده از کلمات کلیدی ، کل اسناد یا حتی ترکیبی کثیف از هر دو ارائه دهید.
این فرآیند هرگونه نیاز به پیش پردازش پیچیده اطلاعات متنی را از بین می برد. این مدل به اندازه کافی هوشمند است که از متن برای تیز کردن دقت آن استفاده می کند. با این حال ، عملکرد کلی آن حتی اگر متنی که ارائه می دهید کاملاً بی ربط نیست ، به سختی تحت تأثیر قرار می گیرد.
واضح است که جاه طلبی علی بابا برای این مدل هوش مصنوعی تبدیل شدن به یک ابزار رونویسی گفتار جهانی است. این سرویس رونویسی دقیق را از یک مدل واحد ارائه می دهد که 11 زبان را پوشش می دهد ، کامل با لهجه ها و لهجه های بی شماری.
حمایت از چینی ها به ویژه عمیق است و علاوه بر لهجه های اصلی مانند کانتونی ، سیچوان ، میننان (هوکیین) و وو ، ماندارین را نیز پوشش می دهد.
برای بلندگوهای انگلیسی ، این لهجه های انگلیسی ، آمریکایی و سایر لهجه های منطقه ای را اداره می کند. فهرست چشمگیر سایر زبانهای پشتیبانی شده شامل فرانسوی ، آلمانی ، اسپانیایی ، ایتالیایی ، پرتغالی ، روسی ، ژاپنی ، کره ای و عربی است.
برای دور کردن همه اینها ، این مدل دقیقاً می تواند مشخص کند که کدام یک از 11 زبان گفته می شود و در رد بخش های غیر گفتاری مانند سکوت یا سر و صدای پس زمینه ماهر است و از خروجی پاک کننده نسبت به ابزارهای رونویسی گفتار گذشته اطمینان حاصل می کند.
همچنین ببینید: Siddhartha Choudhury ، booking.com: مبارزه با کلاهبرداری آنلاین با AI
آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع بخشی از TechEx است و با سایر رویدادهای پیشرو در فناوری هماهنگ است ، برای اطلاعات بیشتر اینجا را کلیک کنید.
AI News توسط TechForge Media ساخته شده است. سایر رویدادها و وبینارهای آینده فناوری شرکت های آینده را در اینجا کاوش کنید.