تیمی در آزمایشگاه Hunyuan Tencent's Hunyuan یک هوش مصنوعی جدید با عنوان “فولی ویدیویی Hunyuan” ایجاد کرده است که در نهایت صدای زنده را برای تولید ویدیو به ارمغان می آورد. این برای گوش دادن به فیلم ها و تولید موسیقی متن فیلم با کیفیت بالا طراحی شده است که کاملاً با عملکرد روی صفحه همگام است.
آیا تا به حال یک فیلم تولید شده توسط AI را تماشا کرده اید و احساس می کنید چیزی از دست رفته است؟ تصاویر ممکن است خیره کننده باشد ، اما اغلب آنها سکوت ناخوشایندی دارند که طلسم را می شکند. در صنعت فیلم ، صدایی که آن سکوت را پر می کند – زنگ برگ ، چنگال رعد و برق ، کلینک یک لیوان – به نام Foley Art نامیده می شود ، و این یک هنر و صنعت پر دردسر است که توسط متخصصان انجام می شود.
تطبیق آن سطح جزئیات یک چالش بزرگ برای هوش مصنوعی است. سالهاست که سیستم های خودکار در تلاش برای ایجاد صداهای باورنکردنی برای فیلم ها هستند.
چگونه Tencent صدای صوتی تولید شده توسط AI را برای مشکل ویدیویی حل می کند؟
یکی از بزرگترین دلایل مدل های ویدئویی به Audio (V2A) که اغلب در بخش صدا کم می شد ، همان چیزی بود که محققان آن را “عدم تعادل” می نامند. در اصل ، هوش مصنوعی بیشتر از آنچه در حال تماشای ویدیوی واقعی بود ، به متن متن گوش می داد.
به عنوان مثال ، اگر شما یک فیلم از یک ساحل شلوغ را با افرادی که در حال پرواز و مرغ دریایی در حال پرواز بودند ، به یک مدل داده اید ، اما متن فقط می گوید: “صدای امواج اقیانوس” ، شما احتمالاً فقط صدای امواج را می گیرید. هوش مصنوعی کاملاً پله های شن و ماسه و تماس های پرندگان را نادیده می گیرد و باعث می شود صحنه احساس بی جان کند.
مهمتر از آن ، کیفیت صدا غالباً زیر مجموعه بود ، و به سادگی ویدیوی با کیفیت بالا و با صدا به اندازه کافی وجود نداشت تا مدل ها را به طور مؤثر آموزش دهد.
تیم Hunyuan Tencent از سه زاویه مختلف با این مشکلات مقابله کرد:
- Tencent متوجه شد که هوش مصنوعی به آموزش بهتری نیاز دارد ، بنابراین آنها یک کتابخانه عظیم و 100000 ساعته از توضیحات ویدیویی ، صوتی و متن را برای یادگیری آن ساخته اند. آنها یک خط لوله خودکار ایجاد کردند که محتوای کم کیفیت را از اینترنت فیلتر می کند و از شر کلیپ هایی با سکوت طولانی یا صوتی فشرده و فازی خلاص می شود و از AI آموخته شده از بهترین مواد ممکن اطمینان می یابد.
- آنها یک معماری هوشمندانه برای هوش مصنوعی طراحی کردند. به آن فکر کنید مانند آموزش مدل برای درست چند وظیفه. این سیستم ابتدا به لینک بصری و Audio توجه بسیار جدی می کند تا زمان درست را به دست آورد-مانند مطابقت با ضرب و شتم یک پله تا لحظه ای دقیق که یک کفش به پیاده رو برخورد می کند. هنگامی که آن زمان را قفل کرد ، سپس متن را برای درک روحیه و متن کلی صحنه درج می کند. این رویکرد دوگانه تضمین می کند که جزئیات خاص فیلم هرگز نادیده گرفته نمی شود.
- برای تضمین صدا با کیفیت بالا ، آنها از یک استراتژی آموزشی به نام نمایندگی نمایندگی (REPA) استفاده کردند. این مانند داشتن یک مهندس صوتی متخصص است که دائماً در طول آموزش خود به شانه هوش مصنوعی نگاه می کند. این کار AI را با ویژگی های یک مدل صوتی از قبل آموزش داده شده و حرفه ای برای هدایت آن به سمت تولید صدای پاک کننده ، غنی تر و پایدارتر مقایسه می کند.
نتایج سخن گفتن صدا برای خودشان
هنگامی که Tencent ویدیویی هونیوآن را در برابر سایر مدلهای پیشرو AI آزمایش کرد ، نتایج صوتی مشخص بود. این فقط این نبود که معیارهای مبتنی بر رایانه بهتر باشند. شنوندگان انسانی به طور مداوم تولید آن را به عنوان کیفیت بالاتر ، بهتر با فیلم و دقیق تر به پایان رساندند.
در سراسر هیئت مدیره ، هوش مصنوعی پیشرفت هایی را در ساخت صدا با عملکرد روی صفحه نمایش ، هم از نظر محتوا و هم زمان انجام داد. نتایج در مجموعه داده های ارزیابی چندگانه از این پشتیبانی می کند:
کار Tencent به بستن شکاف بین فیلم های Silent AI و یک تجربه مشاهده همهجانبه با صدای با کیفیت کمک می کند. این جادوی هنر فولی را به دنیای ایجاد محتوای خودکار می آورد ، که می تواند یک توانایی قدرتمند برای فیلمسازان ، انیماتورها و سازندگان در همه جا باشد.
همچنین ببینید: Google Vids آواتارهای AI و ابزارهای تصویر به تصویر را دریافت می کند
آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع بخشی از TechEx است و با سایر رویدادهای پیشرو در فناوری هماهنگ است ، برای اطلاعات بیشتر اینجا را کلیک کنید.
AI News توسط TechForge Media ساخته شده است. سایر رویدادها و وبینارهای آینده فناوری شرکت های آینده را در اینجا کاوش کنید.