アリババ、世界最強級の推理モデル「QwQ-32B」を公開、性能はDeepSeek-R1に匹敵

出典:https://mp.weixin.qq.com/s/QUmvkrZLo_TrWdcnbBYQ4Q

概要ポイント
  • アリババの新推理モデルQwQ-32Bは数学・コード分野でDeepSeek-R1と同等の性能を達成。
  • 性能評価で複数項目でDeepSeek-R1を超越、OpenAI-o1-miniを完全に凌駕。
  • 個人の消費者向けGPUやApple製ノートPCでも効率的に動作可能。
  • AIエージェント機能を備え、環境に応じた批判的推論が可能。
  • Apache 2.0でオープンソース化され、自由な利用・カスタマイズを推奨。
本文

アリババ(阿里巴巴)は最新の推理特化モデル「通義千問QwQ-32B」(Tongyi Qwen QwQ-32B)を正式に公開した。QwQ-32Bは強化学習を大規模に導入することで、数学、コード、指示遵守能力で世界最高峰の推理性能を実現した。具体的には数学能力を測るAIME24、コード生成評価のLiveCodeBenchにおいて、業界トップクラスのDeepSeek-R1と同等の性能を示し、OpenAIのo1-miniモデルを完全に超えるスコアを記録。また、指示遵守能力を測るIFEval、関数やツールの利用精度を評価するBFCLなど複数指標でもDeepSeek-R1を超える結果を示している。


最大の特徴は性能と効率性の両立である。大規模な専門ハードウェアが必要なDeepSeekとは異なり、QwQ-32Bは消費者向けのGPUやAppleのM4 Maxチップ搭載ノートPCなどでも本地運用が可能。これにより個人開発者や小規模企業でも低コストで強力なAI推理モデルの利用が実現可能になる。


さらに、モデルにはAIエージェント(Agent)としての高度な批判的思考能力も組み込まれているため、環境の変化に応じて推理プロセスを柔軟に調整できる。現在、このモデルはApache 2.0ライセンスでオープンソース化されており、アリババの通義チャット(Qwen Chat)などからオンラインで無料体験可能となっている。


アリババは2023年以降、200以上のAIモデルを公開しており、通義シリーズは国内外の多くの評価ランキングで首位を獲得するなど高い評価を得ている。特にQwenシリーズは派生モデル数が10万を超え、米国のLlamaシリーズを上回り、世界的に最も成功したAIモデルの一つとなっている。


【関連リンク】
ModelScopeモデル:https://modelscope.cn/models/Qwen/QwQ-32B
HuggingFaceモデル:https://huggingface.co/Qwen/QwQ-32B
Qwen Chat(無料体験):https://chat.qwen.ai/?models=Qwen2.5-Plus