Kunlun Techが開発したSkyReels-V2は、映像生成における画期的な進展をもたらすモデルである。Diffusion-forcingを中核とし、マルチモーダルLLM、強化学習、多段階トレーニングなどの技術を統合。従来の限られた秒数ではなく、映像尺に制限のない連続的かつ高品質な動画生成が可能となった。
映画的表現を可能にする構成力は、独自に開発されたSkyCaptioner-V1によって支えられている。シーン構成、カメラアングル、演者の動きや表情まで理解し、提示されたテキスト指示に忠実な映像を生成可能。さらに動きの自然さとリアリティは、好みベースの強化学習により向上しており、物理的に無理のない滑らかな映像を生み出す。
SkyReels-V2はSkyReels-BenchおよびV-Benchで高スコアを記録し、他の開源/非開源モデルを上回る評価を得た。これにより、商用利用における実用性も証明されている。応用領域としては、長編ストーリー生成、画像→動画変換、カメラ演出、複数要素を組み合わせたE2V生成などがある。
SkyReels-A2は、E2V(Element-to-Video)専用モデルとして公開され、人物・物体・背景の高保真な組み合わせを実現。短編劇や音楽映像、広告分野における応用が想定されている。今後は音声や動作データとの連携も予定されており、さらなる展開が期待される。