チャイナAI速報 | 中国AIニュースを日本語で速報

February 26/2025

阿里雲（Alibaba Cloud）、動画生成AI「万相2.1 (Wan)」をApache 2.0ライセンスでオープンソース化

出典：https://mp.weixin.qq.com/s/zmmr_gcQSGbBN-MUdAfmOg

概要ポイント

阿里雲（Alibaba Cloud）が動画生成AI「万相2.1」をApache 2.0ライセンスで公開。
14Bと1.3Bの2つのモデルで、文生動画・図生動画をサポート。
「VBench」ベンチマークで86.22%のトップスコアを獲得。
1.3Bモデルは8.2GBのメモリで480P動画を生成可能。
Github、HuggingFace、ModelScopeでモデルを公開中。

本文

阿里雲（Alibaba Cloud）は、2025年2月25日に動画生成に特化した大規模AIモデル「万相2.1 (Wan)」をApache 2.0ライセンスでオープンソース化した。このモデルは、14B（プロ仕様）と1.3B（軽量仕様）の2つのパラメーター仕様を提供しており、文から動画、画像から動画の生成が可能だ。特に14Bモデルは、複雑な人物の動き、物理シミュレーション、長文指令の理解力において高い性能を発揮し、ベンチマーク「VBench」では86.22%というトップスコアを記録した。一方、1.3Bモデルは消費者向けGPUでも動作可能で、8.2GBのメモリで480Pの動画生成が可能なため、学術研究や二次開発にも適している。

技術面では、万相2.1はDiT（Diffusion Transformer）やFlow Matching（線形ノイズ軌跡）技術を採用し、独自の因果3D VAE（変分オートエンコーダー）や大規模なデータリンク構築、自動評価指標などの革新により、動画生成能力を大幅に向上させている。また、分散学習や推論効率を最適化することで、少ないメモリでの高効率な動作も実現している。

モデルは、Github、HuggingFace、ModelScopeなどの主要なプラットフォームで公開されており、GradioやxDiT並列加速推論、DiffusersやComfyUIのサポートも進行中。これにより、開発者は簡単にモデルを試用・導入することが可能だ。阿里雲は、すでに「千問（Qwen）」モデルファミリーで10万以上の派生モデルを提供しており、今回の「万相2.1」のオープンソース化により、全モダリティ、全サイズのAIモデルの開放を実現した。

【関連リンク】
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
ModelScope: https://modelscope.cn/organization/Wan-AI