Kuaishou(快手)のKling(可霊)研究チームは、3D空間における被写体とカメラの動きを自由に制御できる動画生成フレームワーク「CineMaster」を発表した。このシステムはユーザーが監督のように演出を設計できるインタラクティブ性を備え、SIGGRAPH 2025に論文が採択されている。
従来の動画生成モデルでは困難だった、被写体とカメラの同時制御を可能にするため、CineMasterは2段階のワークフローを採用。まず、ユーザーは3D空間内で物体のバウンディングボックスとカメラ軌跡を設計。続いて、ControlNetベースの生成モデルがそれらの信号をもとに動画を生成する。
また、Qwen2-VL、Grounding DINO、SAM v2、DepthAnything V2などの先端モデルを活用し、任意の動画から3D制御信号を自動抽出するパイプラインを構築。これにより、直感的な設計と高精度な生成の両立を実現した。
比較実験では、従来手法が制御信号と動作が乖離しがちだったのに対し、CineMasterはユーザーの指示に忠実な映像を安定的に出力。テキストからの映像生成において、“演出可能なクリエイティブツール”として新たな可能性を示した。