アリババのTongyi LabはQwen3-VLを公開──視覚エージェント、2D/3Dの物体位置特定、長いコンテキスト対応を強化

出典:https://mp.weixin.qq.com/s/qFWnuCRkkv5jfV122Hs_fw

Qwen3-VL
概要ポイント
  • 旗艦モデルQwen3-VL-235B-A22Bをオープンソース公開(Instruct/Thinkingの2系統)。
  • GUI操作やツール呼び出しを含む視覚エージェント性能を搭載。
  • 2D/3Dの物体位置特定(グラウンディング)で複雑シーンに対応。
  • 長いコンテキスト処理(標準256K/最大100万トークン)と長尺動画理解を実現。
  • 多言語OCRやコード生成など幅広い応用性能を強化。
本文

アリババのTongyi Labは、視覚言語モデルの新世代「Qwen3-VL」を公開した。旗艦のQwen3-VL-235B-A22BはMixture-of-Experts構成で、InstructとThinkingの2系統を同時にオープンソース提供。GUI要素理解とツール呼び出しを組み合わせた視覚エージェント能力、相対座標化した2Dグラウンディングと3D境界ボックス推定による空間推論、長いコンテキスト対応(標準256K/最大100万トークン拡張)を中核に据える。


モデルは長尺動画の時系列理解を強化し、秒単位でのイベント定位を可能にする。Thinking系はSTEM・数理推論に重点を置き、Instruct系は汎用視覚タスクで高水準の成績を示す。多言語OCRの対応範囲を拡大し、難条件の実写でも安定性を高めたほか、HTML/CSS/JSや図表コード生成などの視覚コーディングも実演例で示した。


アーキテクチャ面では、時間・高さ・幅の位置符号化を交互配置するMRoPE-Interleave、ViT多層特徴をLLM複数層へ注入するDeepStack的設計、テキスト時間スタンプと映像フレームの細粒度整合による時間理解の強化を実装。長動画理解や細粒度認識、文書解析の効率と精度を底上げした。APIはAlibaba CloudのModel Studio経由で提供され、オープンソース配布により研究・実装双方での適用拡大が見込まれる。