アリババ、Qwen3-Nextを発表──長文処理と推論効率で革新、80Bモデルをオープンソース公開

出典:https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag

Qwen3-Next announcement
概要ポイント
  • ハイブリッド注意機構(Gated DeltaNet+標準注意)と高スパースMoEで効率と安定性を両立。
  • 総80Bパラメータのうち推論時に稼働するのは約3Bで、32B dense級の性能を達成。
  • 長文推論のスループットはQwen3-32B比で10倍超、最大262Kトークンの文脈に対応。
  • Instruct/Thinking版を同時公開、ThinkingはGemini-2.5-Flash-Thinking級の指標を示す。
  • Hugging Face/ModelScope/Qwen Chat/Alibaba Cloud Bailianから利用可能。
本文

アリババは次世代基盤モデル「Qwen3-Next」を発表し、オープンソースで公開した。新アーキテクチャはGated DeltaNetと標準注意を層内で組み合わせるハイブリッド注意機構を採用し、長文での表現力と推論効率を同時に最適化。さらに高スパースのMixture-of-Experts設計を拡張し、総80Bパラメータ規模でありながら推論時の実稼働は約3Bに抑えた。これによりQwen3-32B dense相当の品質を維持しつつ、学習コストは1/10未満、推論スループットは特に32K超の長文で10倍以上まで拡大する。


安定性の面では、注意機構の出力ゲーティング、Zero-Centered RMSNorm、MoEルーターの初期化最適化などを投入し、学習の数値安定性とRL訓練の収束性を強化。Multi-Token Prediction(MTP)をネイティブに組み込み、推測デコードの受理率を高めつつ本体性能も底上げした。最大コンテキスト長は262,144トークンで、必要に応じてYaRN系のRoPEスケーリングで百万トークンクラスのテキスト処理にも拡張可能だ。


公開ラインアップは「Qwen3-Next-80B-A3B」のBase/Instruct/Thinking。Instructは長文処理指標で大型モデルに比肩し、Thinkingは複雑推論系ベンチでGemini-2.5-Flash-Thinkingを上回る項目を示した。導入はHugging Face Transformersの最新ブランチ、または高スループットなSGLang/vLLMでの提供に対応。開発者はQwen Chatでの体験、Hugging FaceやModelScopeでの入手、もしくはAlibaba Cloud BailianのAPI経由で利用できる。