テンセント、マルチモーダル動画生成ツール「HunyuanCustom」をオープンソース公開

出典:https://mp.weixin.qq.com/s/56eN0DhcUDIXXP-51r4d_w

概要ポイント
  • テンセントが「HunyuanCustom」を公開し、GitHubでオープンソース化。
  • 画像・テキスト・音声・動画の入力で自然な映像生成が可能。
  • 人物や物体の一貫性を保ちながら、自由度の高い映像表現を実現。
  • 広告、教育、バーチャル接客など幅広い用途に対応。
  • 体験ページや技術論文など複数の導入・学習リソースを提供。
本文

テンセントは、大規模動画生成モデル「HunyuanVideo」を基盤にしたマルチモーダル動画生成ツール「HunyuanCustom(混元カスタム)」を発表し、GitHubでオープンソースとして公開した。HunyuanCustomは、画像・テキスト・音声・映像の複数モーダルを入力に用い、高い制御性と表現力を備えた自然な動画を生成できるのが特徴。


単一人物や複数人物・物体を入力として、動作・背景・表情を自由に変更できるだけでなく、音声に連動してキャラクターが歌ったり話したりする映像を作成できる。従来の画像ベース動画生成モデルでは困難だった、服装や動作、場面の切り替えにも対応可能となっている。


また、音声駆動や映像挿入などの高度な表現にも対応し、教育コンテンツやバーチャル接客、ストーリー動画の制作にも有用。テンセントは「画像が誰かを決め、テキストが何をするかを決める」という方針で、人物の外観や動作を一貫して制御できるアーキテクチャを確立した。


技術的には、強力な多モーダル理解能力と主体一貫性モデリングによって、映像中での「変顔」や「物体のズレ」が生じない安定した表現が可能。高精細な人物描写、滑らかな動き、リアルな光影表現により、プロユースにも対応する品質を実現している。


現在は単主体生成機能が公式サイトで体験可能であり、他の機能も5月中に順次公開予定。公式サイトや技術論文では、詳細な構成・原理・応用事例も紹介されている。