テンセント、画像から動画を生成する「HunyuanVideo-I2V」モデルをオープンソースとして公開

出典:https://mp.weixin.qq.com/s/aOeJoWyQ78o45KlJnAtAkg

概要ポイント
  • 画像と簡単な指示で5秒の高品質動画を生成可能。
  • 口パクや動作駆動機能を搭載し、2K高画質や背景音の追加に対応。
  • モデルの重みや推論コード、LoRAトレーニングコードを提供。
  • GitHubやHuggingFaceでオープンソースとして公開。
  • 企業や開発者はテンセントクラウドAPIで利用可能。
本文

2025年3月6日、テンセントは画像から動画を生成する最新のAIモデル「HunyuanVideo-I2V」をオープンソースとして公開した。このモデルは、ユーザーが1枚の画像をアップロードし、簡単なテキスト指示を入力するだけで、5秒間の動画を自動生成する機能を持つ。動画には、カメラアングルの変化や被写体の動きが加えられ、さらに自動で背景音を追加することも可能だ。


HunyuanVideo-I2Vには、静止画のキャラクターを口パクさせる「音声駆動」機能が搭載されており、指定した音声やテキストに合わせてキャラクターが話したり歌ったりすることができる。加えて、「動作駆動」機能では、参考となる動きの動画を元に、静止画のキャラクターがダンスをするようなアニメーションを生成できる。


このモデルは、高い汎用性を持ち、リアルな実写映像の制作だけでなく、アニメキャラクターやCGIキャラクターの生成にも適用可能だ。モデルの総パラメータ数は130億に及び、LoRAトレーニングを活用することで、開発者が特定の用途向けにカスタマイズすることもできる。オープンソースとして公開された内容には、モデルの重み、推論コード、LoRAトレーニングコードが含まれており、これにより開発者は独自の動画生成モデルをトレーニングできる。


現在、HunyuanVideo-I2VはGitHubやHuggingFaceでダウンロード可能で、オープンソースコミュニティではすでに多数の派生モデルやプラグインが開発されている。昨年12月にはHuggingFaceの人気ランキングで1位を獲得し、GitHubでも8.9K以上のスターを獲得するなど、高い関心を集めている。テンセントは、「Hunyuan AI Video」公式サイトでの体験提供を開始しており、企業や開発者はテンセントクラウドのAPIを通じてこの技術を活用することができる。


【関連リンク】
GitHub:https://github.com/Tencent/HunyuanVideo-I2V
HuggingFace:https://huggingface.co/tencent/HunyuanVideo-I2V
Hunyuan AI Video 公式サイト:https://aivideo.hunyuan.tencent.com