Alibaba Cloud(阿里雲、Aliyun)の最新AIモデル「Qwen2.5-Max」が、LMSYS Orgが運営する大規模言語モデルの性能評価プラットフォーム「Chatbot Arena」の最新ランキングで、数学とプログラミング能力においてトップの評価を受けた。総合スコアでは1332点を獲得し、世界ランキングでは第7位にランクインした。また、中国の非推論型モデルとしては最も高い評価を受けた。
Chatbot Arenaは190以上の大規模言語モデルを匿名で比較し、ユーザーが実際の対話を通じて評価を行う仕組みを採用している。そのため、業界内では最も公平かつ権威のあるランキングの一つとして認識されている。今回の結果により、Qwen2.5-MaxはClaude-3.5-Sonnetと同等の性能を持ち、さらにGPT-4oやDeepSeek-V3、Llama-3.1-405Bといった競合モデルを上回る実力を示した。
Qwen2.5-Maxは、Alibaba Cloud 通義チームによって約1週間前に発表された最新のMixture of Experts(MoE)モデルであり、Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond、MMLU-Proといった主要なベンチマークテストで優れた成績を収めた。この結果に対し、Chatbot Arenaの公式アカウントも「Alibaba CloudのQwen2.5-Maxは数学、プログラミング、ハードプロンプトなどの分野で強力なパフォーマンスを発揮している」と高く評価している。
Qwen2.5-Maxの発表後、国内外のAI業界で大きな話題となった。Chatbot Arenaの公式アカウントは、「Qwen2.5-Maxを筆頭とする中国の大規模言語モデルが急速に成長している」と述べており、一部の専門家からは「従来の対話型GPTの時代が終わる可能性がある」との声も上がっている。
現在、企業はAlibaba Cloud「百炼(Bailian)」を通じてQwen2.5-MaxのAPIを利用でき、開発者は「Qwen Chat」プラットフォームで無料で試用可能となっている。
QWEN CHAT公式サイト:https://chat.qwenlm.ai/