アリババ、画像編集特化の多モーダルAI「Qwen-VLo」を公開──GPT-4o超えの実用性能が話題に

出典:https://mp.weixin.qq.com/s/RiAnvEhp0lkPpC-ED24Tgw

Qwen-VLoのデモ画像
概要ポイント
  • アリババが多モーダル生成モデル「Qwen-VLo」を無料公開。
  • 一文の指示で画像編集が可能、構図や背景を保持しながら細部だけを変更。
  • 最大4K画像、任意のアスペクト比、多言語対応でグローバル展開を想定。
  • 教育・視覚設計・広告など実用分野への応用を前提に設計。
  • 軽量設計で汎用GPUでも動作し、商用利用も許可されている。
本文

アリババが公開した「Qwen-VLo(Qwen Vision-Language Operator)」は、視覚と言語の統合能力に優れた多モーダルAIモデル。画像生成だけでなく、一文の指示でスタイル変更、素材差し替え、文字追加といった多様な画像編集を行える点が特徴だ。既存画像の構図や背景を保ちながら、指示通りに内容を調整できる編集性能は、GPT-4oと比較しても高いとの声がある。


モデルは最大4,096×4,096ピクセルの高解像度画像生成に対応し、解像度やアスペクト比の制限もない。画像の物体を識別して注釈をつけたり、領域分割(マスキング)を行う視覚理解能力も備えており、教育や設計、漫画や広告制作など幅広い実用分野での活用が見込まれている。


生成方式には、上から下へ段階的に画像を構築する漸進的レンダリング手法を採用。生成過程で内容を段階的に洗練させていくため、視覚的な品質と整合性を両立する。さらに、多言語対応(英語・中国語)を実装しており、国際的な展開も視野に入れている。


本モデルは「Qwen3-235B-A22B」エンジン上で動作し、Webサイト上で誰でも無料体験が可能。GPUメモリ24GB程度の環境でも動作する軽量設計で、商用利用も許可されている。すでにネット上ではアニメ着色やミーム生成、看板デザインといったユースケースが多数報告されており、今後の拡張にも注目が集まる。