阿里雲(Alibaba Cloud)、動画生成AI「万相2.1 (Wan)」をApache 2.0ライセンスでオープンソース化

出典:https://mp.weixin.qq.com/s/zmmr_gcQSGbBN-MUdAfmOg

概要ポイント
  • 阿里雲(Alibaba Cloud)が動画生成AI「万相2.1」をApache 2.0ライセンスで公開。
  • 14Bと1.3Bの2つのモデルで、文生動画・図生動画をサポート。
  • 「VBench」ベンチマークで86.22%のトップスコアを獲得。
  • 1.3Bモデルは8.2GBのメモリで480P動画を生成可能。
  • Github、HuggingFace、ModelScopeでモデルを公開中。
本文

阿里雲(Alibaba Cloud)は、2025年2月25日に動画生成に特化した大規模AIモデル「万相2.1 (Wan)」をApache 2.0ライセンスでオープンソース化した。このモデルは、14B(プロ仕様)と1.3B(軽量仕様)の2つのパラメーター仕様を提供しており、文から動画、画像から動画の生成が可能だ。特に14Bモデルは、複雑な人物の動き、物理シミュレーション、長文指令の理解力において高い性能を発揮し、ベンチマーク「VBench」では86.22%というトップスコアを記録した。一方、1.3Bモデルは消費者向けGPUでも動作可能で、8.2GBのメモリで480Pの動画生成が可能なため、学術研究や二次開発にも適している。

技術面では、万相2.1はDiT(Diffusion Transformer)やFlow Matching(線形ノイズ軌跡)技術を採用し、独自の因果3D VAE(変分オートエンコーダー)や大規模なデータリンク構築、自動評価指標などの革新により、動画生成能力を大幅に向上させている。また、分散学習や推論効率を最適化することで、少ないメモリでの高効率な動作も実現している。

モデルは、Github、HuggingFace、ModelScopeなどの主要なプラットフォームで公開されており、GradioやxDiT並列加速推論、DiffusersやComfyUIのサポートも進行中。これにより、開発者は簡単にモデルを試用・導入することが可能だ。阿里雲は、すでに「千問(Qwen)」モデルファミリーで10万以上の派生モデルを提供しており、今回の「万相2.1」のオープンソース化により、全モダリティ、全サイズのAIモデルの開放を実現した。

【関連リンク】
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
ModelScope: https://modelscope.cn/organization/Wan-AI