字節跳動(ByteDance)は、AI動画生成分野における新たなツール「Phantom」を公開した。Phantomは、長年の課題とされてきた「動画内での主役の一貫性」を解決することを目指している。これまでの動画生成ツールでは、同一人物が場面ごとに顔が変わったり、手に持っていた物が突然消えたり、服のデザインが変わるなどの不自然な現象が発生していた。
Phantomは、シングル主体からマルチ主体まで対応可能で、人物、物品、動物、さらには二次元の仮想キャラクターに至るまで、すべての主体が一貫性を保った映像を生成する。この技術は、広告動画、映画制作、ゲームアニメーションなど、特にキャラクターやオブジェクトの細部にわたる表現が求められる分野での活用が期待されている。
Phantomの特長として、テキスト・画像・動画の三元データを用いてクロスモーダル(多次元データ間の変換)を実現し、各主体のスタイルや動作、細部のディテールが動画内で自然に融合する点が挙げられる。また、室内外の多様なシーンや複雑な動作にも対応しており、特に複数のキャラクターが関わるシーンでも一貫した品質を維持する。
例えば、ブランド広告では、バーチャルキャラクターがブランド衣装を着用し、製品と自然にインタラクションする映像を生成したり、映画制作では役者の動作や表情、衣装の再現を容易にしたりすることが可能だ。さらに、ゲーム制作においては、キャラクターやアイテム、仮想世界のエレメントが複雑に絡み合うシーンの制作をサポートする。
現在、Phantomのコードはまだ公開されていないものの、公式サイトやGitHubページ(https://phantom-video.github.io/Phantom および https://github.com/Phantom-video/Phantom)で最新情報が提供されている。今後の展開が期待されるプロジェクトであり、AIクリエイティブ分野に新たな風を吹き込むことになりそうだ。
【関連リンク】
Phantom公式サイト: https://phantom-video.github.io/Phantom
Phantom GitHubページ: https://github.com/Phantom-video/Phantom