アリババのTongyi Lab(通義実験室)は、動画生成AI「Wan」シリーズに関する技術報告を公開した。報告によると、「Wan」シリーズは多段階学習・効率的な分布式訓練・軽量高性能モデル・推論加速・大規模データ構築・文字生成能力・オープンソースエコシステムという7大領域において技術革新を実現している。
学習プロセスでは、解像度192Pからスタートし、最終的に720P動画まで段階的に拡張する訓練方法を採用。Flow Matchingフレームワークと組み合わせることで、パラメータ数14Bの大規模モデルにおいても効率的で安定した収束を可能にした。また、分布式戦略(DP、CP、FSDPなど)を動的に切り替えながらの訓練により、百万トークン規模の長距離データ処理を実現している。
生成性能においては、新たに設計された「Wan-VAE」アーキテクチャが注目される。キャッシュ機構を用いた3D因果構造により、1080Pの長時間動画の高速・高品質再構成が可能であり、従来比で2.5倍の速度を達成している。さらに、1.3Bの軽量モデルでは、わずか8.19GBのGPUメモリで動作し、RTX 4090環境下で5秒の動画を約4分で生成できる。これは、より大規模なオープンソースモデルを凌駕する性能とされている。
推論速度向上のために、CP戦略やDiffusion Cache、FP8量子化を組み合わせた設計により、14Bモデルで1.78倍の速度向上が確認された。加えて、O(1)B級の大規模画像・動画データを独自に構築し、OCR、美学評価、モーション品質評価といった多層的フィルタリングによって高品質な訓練データを確保。動画内に自然に溶け込む中英バイリンガル文字生成も実現している。
エコシステム面では、図像からの動画生成や指示による動画編集、ポートレート生成、リアルタイム生成など8種類の下流タスクに対応。1.3Bおよび14Bの両モデルを480P/720Pでオープンソース化し、計算リソースに応じた柔軟な活用が可能だ。ベンチマークテスト「VBench」では、Wan 14Bが86.22点を記録し、非公開モデルであるSoraを上回る性能を示した。