通義万相2.1、AI動画生成能力を大幅強化 – VBenchランキングで首位獲得

出典:https://mp.weixin.qq.com/s/UPE1AEdmyUxY65XDph4hig

概要ポイント
  • 通義万相2.1 は映像生成のAIモデルで、性能が大幅向上した。
  • VAEとDiTアーキテクチャ を採用し、長時間の1080P動画生成が可能になった。
  • VBenchランキングで1位 を獲得し、業界トップの映像生成能力を示した。
  • 複雑な人物の動作や物理演算 を再現し、リアルな映像生成が可能になった。
  • 映画のような質感やアートスタイル を適用し、幅広いクリエイティブ用途に対応。
  • 中国語テキスト動画生成 に初対応し、映像の表現力を向上させた。
本文

Alibaba CloudのAI映像生成モデル「通義万相」がバージョン2.1にアップグレードされ、大幅な性能向上を遂げた。新モデルは、自社開発の高効率VAE(変分オートエンコーダ)とDiT(Diffusion Transformer)アーキテクチャを採用し、時間・空間の文脈理解能力を強化。これにより、1080Pの長時間動画の効率的なエンコード・デコードを実現した。特に、中国語のテキストから動画を生成する機能が初めて導入され、映像制作の幅が広がった。

このアップグレードにより、通義万相2.1は、映像生成AIの評価指標「VBench」ランキングで1位を獲得した。モデルの進化により、複雑な人物の動作やカメラワークの再現が向上。例えば、バレエやブレイクダンスなどの回転やジャンプといった激しい動きにも対応し、映像のブレを抑えつつ、安定した表現が可能となった。また、物理演算の精度も高まり、水滴の飛び散りや木彫りの削りカスなどの細かな演出もリアルに再現できるようになった。

さらに、映画のような質感やアートスタイルを適用できる機能も強化された。例えば、サイバーパンク風の夜景や、ゴシック調のダークファンタジー世界、宇宙空間のSF映像など、多様なビジュアルを生成可能だ。これに加え、映像のカラートーンや筆致を自由にカスタマイズすることで、クリエイターが求める独自のスタイルを実現できる。

通義万相2.1は、Alibaba Cloudの公式サイトで体験できるほか、企業向けには「百炼(Bailian)」を通じてAPIの提供が開始されている。今後の展開として、さらなる映像表現の向上と、クリエイティブ業界への応用が期待される。