Alibaba CloudのQwen2.5-Max、Chatbot Arenaで数学・プログラミング能力1位を獲得

出典:https://mp.weixin.qq.com/s/3N-3fzPL0PvbW0YrOUVvEw

概要ポイント
  • Qwen2.5-MaxがChatbot Arenaの数学・プログラミング能力ランキングで1位を獲得。
  • 総合スコア1332点で世界7位、中国の非推論型モデルでは最高位。
  • Chatbot Arenaは匿名の盲検テスト方式を採用し、公平な評価を提供。
  • Qwen2.5-MaxはClaude-3.5-Sonnetと同等、GPT-4o・DeepSeek-V3・Llama-3.1-405Bを超える性能。
  • 発表直後から業界で話題となり、従来の対話型GPTの時代が終わる可能性を示唆。
本文

Alibaba Cloud(阿里雲、Aliyun)の最新AIモデル「Qwen2.5-Max」が、LMSYS Orgが運営する大規模言語モデルの性能評価プラットフォーム「Chatbot Arena」の最新ランキングで、数学とプログラミング能力においてトップの評価を受けた。総合スコアでは1332点を獲得し、世界ランキングでは第7位にランクインした。また、中国の非推論型モデルとしては最も高い評価を受けた。

Chatbot Arenaは190以上の大規模言語モデルを匿名で比較し、ユーザーが実際の対話を通じて評価を行う仕組みを採用している。そのため、業界内では最も公平かつ権威のあるランキングの一つとして認識されている。今回の結果により、Qwen2.5-MaxはClaude-3.5-Sonnetと同等の性能を持ち、さらにGPT-4oやDeepSeek-V3、Llama-3.1-405Bといった競合モデルを上回る実力を示した。

Qwen2.5-Maxは、Alibaba Cloud 通義チームによって約1週間前に発表された最新のMixture of Experts(MoE)モデルであり、Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond、MMLU-Proといった主要なベンチマークテストで優れた成績を収めた。この結果に対し、Chatbot Arenaの公式アカウントも「Alibaba CloudのQwen2.5-Maxは数学、プログラミング、ハードプロンプトなどの分野で強力なパフォーマンスを発揮している」と高く評価している。

Qwen2.5-Maxの発表後、国内外のAI業界で大きな話題となった。Chatbot Arenaの公式アカウントは、「Qwen2.5-Maxを筆頭とする中国の大規模言語モデルが急速に成長している」と述べており、一部の専門家からは「従来の対話型GPTの時代が終わる可能性がある」との声も上がっている。

現在、企業はAlibaba Cloud「百炼(Bailian)」を通じてQwen2.5-MaxのAPIを利用でき、開発者は「Qwen Chat」プラットフォームで無料で試用可能となっている。

QWEN CHAT公式サイト:https://chat.qwenlm.ai/