阿里雲(Alibaba Cloud)は、2025年2月25日に動画生成に特化した大規模AIモデル「万相2.1 (Wan)」をApache 2.0ライセンスでオープンソース化した。このモデルは、14B(プロ仕様)と1.3B(軽量仕様)の2つのパラメーター仕様を提供しており、文から動画、画像から動画の生成が可能だ。特に14Bモデルは、複雑な人物の動き、物理シミュレーション、長文指令の理解力において高い性能を発揮し、ベンチマーク「VBench」では86.22%というトップスコアを記録した。一方、1.3Bモデルは消費者向けGPUでも動作可能で、8.2GBのメモリで480Pの動画生成が可能なため、学術研究や二次開発にも適している。
技術面では、万相2.1はDiT(Diffusion Transformer)やFlow Matching(線形ノイズ軌跡)技術を採用し、独自の因果3D VAE(変分オートエンコーダー)や大規模なデータリンク構築、自動評価指標などの革新により、動画生成能力を大幅に向上させている。また、分散学習や推論効率を最適化することで、少ないメモリでの高効率な動作も実現している。
モデルは、Github、HuggingFace、ModelScopeなどの主要なプラットフォームで公開されており、GradioやxDiT並列加速推論、DiffusersやComfyUIのサポートも進行中。これにより、開発者は簡単にモデルを試用・導入することが可能だ。阿里雲は、すでに「千問(Qwen)」モデルファミリーで10万以上の派生モデルを提供しており、今回の「万相2.1」のオープンソース化により、全モダリティ、全サイズのAIモデルの開放を実現した。
【関連リンク】
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
ModelScope: https://modelscope.cn/organization/Wan-AI