SkyReels-V2公開──Kunlun Techが長時間映像生成の限界を突破、全モデルをオープンソース化

出典:https://mp.weixin.qq.com/s/xfgWnSBZYnI-TurjqNeUrw

概要ポイント
  • SkyReels-V2は世界初のDiffusion-forcing採用モデルで長尺映像生成に対応。
  • SkyCaptioner-V1で映画的構図や演出を理解、指示の精度を大幅に向上。
  • 強化学習と独自データセットにより高品質な動きを実現。
  • SkyReels-BenchとV-Benchで指示遵守・一貫性・画質・動き全てで高評価。
  • SkyReels-A2を含む全モデルを完全開源、商用利用にも対応。
本文

Kunlun Techが開発したSkyReels-V2は、映像生成における画期的な進展をもたらすモデルである。Diffusion-forcingを中核とし、マルチモーダルLLM、強化学習、多段階トレーニングなどの技術を統合。従来の限られた秒数ではなく、映像尺に制限のない連続的かつ高品質な動画生成が可能となった。


映画的表現を可能にする構成力は、独自に開発されたSkyCaptioner-V1によって支えられている。シーン構成、カメラアングル、演者の動きや表情まで理解し、提示されたテキスト指示に忠実な映像を生成可能。さらに動きの自然さとリアリティは、好みベースの強化学習により向上しており、物理的に無理のない滑らかな映像を生み出す。


SkyReels-V2はSkyReels-BenchおよびV-Benchで高スコアを記録し、他の開源/非開源モデルを上回る評価を得た。これにより、商用利用における実用性も証明されている。応用領域としては、長編ストーリー生成、画像→動画変換、カメラ演出、複数要素を組み合わせたE2V生成などがある。


SkyReels-A2は、E2V(Element-to-Video)専用モデルとして公開され、人物・物体・背景の高保真な組み合わせを実現。短編劇や音楽映像、広告分野における応用が想定されている。今後は音声や動作データとの連携も予定されており、さらなる展開が期待される。