StepFun(階躍星辰)、画像生成動画モデル「Step-Video-TI2V」をオープンソース公開 動きとカメラワークの制御が可能、アニメ制作に強み

出典:https://mp.weixin.qq.com/s/p2O1rMp9suVHKfxOUG9RiA

概要ポイント
  • 動きの幅・カメラワークを数値で制御可能な画像生成動画モデル。
  • アニメーションや短編映像などでの表現力に優れる。
  • 最大102フレーム、5秒、540Pの出力に対応。
  • Huawei Ascend(昇騰)NPUに最適化済み、Modelersで体験可能。
  • GitHubおよびarXivでソースコードと技術資料を公開。
本文

中国のAI企業・階躍星辰(StepFun)は、画像から動画を生成する画像生成動画モデル「Step-Video-TI2V」をオープンソースで公開した。これは同社が以前発表したマルチモーダルモデル「Step-Video-T2V」をベースに、より画像条件に最適化された構造を採用した新モデルであり、最大102フレーム・5秒間・540Pの動画生成が可能となっている。


特徴のひとつは、ユーザーが動画の「動きの幅(motion)」を数値で直接制御できる設計だ。motion=2、5、10といった設定によって、生成される動画のダイナミズムを精密に調整できる。また、カメラワークの自由度も高く、ズーム、パン、ティルトといった基本的な運鏡から、映画的なカメラ動作まで再現可能となっている。これにより、映像作品における演出表現の自由度が飛躍的に向上している。


Step-Video-TI2Vでは従来のcross-attention機構を排し、画像の埋め込みベクトルと動画初期フレームのベクトルをチャンネル方向に直接連結する手法を採用。これにより、生成動画と入力画像の整合性が大きく向上した。さらに、AdaLNモジュールを用いて動的性スコアを学習させることで、動きのコントロール性も高めている。


また、アニメーション分野における性能も特筆に値する。技術レポート(arXiv:2503.11251)によれば、同モデルはVBench-I2Vと呼ばれる基準テストにおいて、安定性・一貫性・動的性の3点で最先端水準のスコアを記録。特にキャラクターの滑らかな動きや背景の安定性、カメラの自然な移動表現が高評価を受けている。


本モデルはまた、さまざまなアスペクト比に対応しており、横長・縦長・正方形など、出力フォーマットを用途や配信プラットフォームに合わせて柔軟に設定できる。アニメ制作、短編動画制作、広告、SNSコンテンツなど多様な活用が期待される。


技術的な実装はGitHubで完全に公開されており、PyTorchベースのコード、学習済みモデル、推論用スクリプト、ComfyUI統合までが整備されている。また、Huaweiの昇騰NPUプラットフォームにも最適化済みで、Modelersプラットフォーム経由で「Torch版」および「MindIE版」の双方が利用可能。Web版・モバイルアプリでも直接利用できる環境が整備されており、開発者・クリエイター双方に開かれたプロジェクトとなっている。


今後、LoRAなどを用いたエフェクト機能の強化や、さらなる多様な運用シナリオへの対応が予告されており、Step-Video-TI2Vは今後の画像生成動画分野における重要なオープンソース基盤となる可能性がある。