中国のStepFun(階躍星辰)が最新の動画生成モデル「Step-Video V2」を正式に発表した。本モデルは、従来のV1と比較して大幅な進化を遂げており、複雑な動作の表現、リアルな人物描写、映像の美的クオリティ、カメラワーク、さらには動画内の文字生成能力が強化されている。
V2では、新たなVAEモデルを採用し、空間を16×16倍、時間を8倍圧縮することで、計算コストを抑えつつ高精度な動画生成を可能にした。また、DiTアーキテクチャの最適化と強化学習の導入により、動画の動作がより自然で滑らかになった。さらに、マルチモーダルAIと動画知識ベースを活用することで、映像の内容理解能力が向上し、よりリアルな表現を実現している。
Step-Video V2の強化により、バレエや空手の動き、表情の細部、照明の演出などがよりリアルに再現可能となった。また、カメラワークの自由度も増し、移動、ズーム、回転、追従など多様な撮影手法に対応。加えて、動画内に組み込む文字生成も改善され、シーンに自然に溶け込む表現が可能となった。
現在、Step-Video V2はウェブ上(https://yuewen.cn/videos)で試用申請が可能となっており、ユーザーからのフィードバックも募集している。AIによる動画生成技術がますます進化する中、Step-Video V2は新たな映像制作の可能性を広げる革新的なツールとして注目を集めている。