アリババの研究機関Tongyi Labは、動画生成AIモデル「Wan2.1」シリーズを正式にオープンソースで公開した。このモデルは、ユーザーが与えた冒頭とラストの2枚の画像を元に、それらを滑らかにつなぐ自然な映像を生成する。DiT(Diffusion Transformer)構造を中核に据えた設計により、時間的・空間的な一貫性を高精度で捉えることが可能になっている。
モデル内部では、冒頭とラスト画像から得たCLIP意味特徴をCross-Attention機構を介して生成プロセスに統合し、視覚的一貫性を高める工夫が施されている。また、低コストかつ高解像度な映像生成を可能にするVAE(変分オートエンコーダ)も組み込まれており、720p・5秒間の動画にも対応する。
学習プロセスは3段階構成で、初期段階では480pでの多様なマスク予測タスクによって汎用的な能力を習得し、次に冒頭とラストのフレーム間の差が大きいデータを用いて変化への適応力を高め、最終的には720pで高精度な生成力を仕上げる。
推論段階では、FlashAttention3のINT8/FP8混合精度演算、モデル分割やシーケンス並列化、ステップキャッシュやCFGキャッシュといった高度な最適化手法を採用。これにより、GPUリソースを抑えつつも高速で高品質な動画生成を可能としている。