テンセントは8月28日、動画音声生成モデル「HunyuanVideo-Foley」をオープンソースとして公開した。映像とテキストを入力するだけで、画面内容に合致した映画水準の音響を生成でき、従来のAI生成動画が直面していた「映像は生成できても音声がない」という課題を解決する。生成される音声は単なる効果音にとどまらず、環境音や複合的な音響を含み、短動画制作、映画、広告、ゲーム開発など幅広い領域で活用可能だ。
このモデルは、音声生成技術が抱えていた三つの課題──多様な場面に対応できないこと、映像との整合性不足、音質の粗さ──を克服するために設計された。約10万時間規模の高品質データセットと、多模態拡散変換器(MMDiT)による映像・音声・テキストの統合処理により、場面全体を理解した複合音声を生成可能にした。また、表現対比損失関数(REPA)を導入することで音質も大幅に改善し、ノイズを抑えたプロ仕様の音響を再現している。
性能面では、MovieGen-Audio-Benchなど複数の権威評価において既存モデルを上回り、音声品質や視覚との整合性、時間的同期の各指標でSOTA水準を達成。主観評価でもプロに近い水準のスコアを獲得した。
HunyuanVideo-Foleyの公開により、クリエイターは一段とリアルで没入感の高いコンテンツを効率的に制作できるようになり、マルチモーダルAIの応用が加速するとみられる。