アリババのTongyi Lab(通義実験室)は、最新の動画生成モデル「Wan(通義万相)2.1」に関する技術報告を公開した。本モデルはスケーラブルなトレーニング手法と革新的アーキテクチャにより、品質・速度・汎用性の全方位で従来技術を上回っている。
Wan 2.1は、まず192P画像から始まり最終的に720P動画に到達する多段階訓練プロセスを採用。このプロセスでは、Flow Matchingベースの予測訓練や、映像向けに最適化されたテキストアライメント技術が活用されており、14Bパラメータモデルでも安定して高速に収束する設計となっている。
さらに、DP(データ並列)、CP(チェックポイント並列)、FSDP(完全シャーディング)などを組み合わせた動的な分布式戦略により、最大100万トークンの長コンテキスト学習が可能。加えて新たに導入された3D因果的Wan-VAEは、キャッシュ活用によって1080P動画の無限長エンコード・デコードに対応し、従来比2.5倍の高速再構築と高品質を両立した。
モデルサイズの面でも柔軟性が高く、1.3Bの軽量モデルは8.19GBのVRAMで動作し、RTX 4090環境で約4分で5秒の動画を生成できる。14Bモデルでは、Diffusion CacheとFP8量子化により推論速度が従来比1.78倍に向上。
データ面ではOCR検出、映像美学評価、運動特性によるクレンジングなどを通じて大規模かつ高品質なデータセットを構築。中英対応の動画内テキスト生成機能は、シーンと自然に融合するリアルな文字表現を可能にし、合成データと多モーダル訓練の融合によって精度を高めている。
応用可能な下流タスクも豊富で、画像からの動画生成、指示に基づく編集、個人化アバター生成、リアルタイム映像生成など8種類をカバー。480Pおよび720Pの複数解像度、1.3Bと14Bの複数モデルサイズが用意されており、幅広い計算環境に対応可能。
オープンソースとしては、モデル、トレーニングコード、推論スクリプトを全て公開し、二次開発を支援。評価ベンチマーク「VBench」では、Wan 14Bモデルが総合スコア86.22を獲得し、クローズドソースのSoraを上回る結果を記録。オープンソース動画生成の分野をけん引する存在となっている。