Alibaba Cloud、新世代AIモデルQwen2.5-Maxを発表 – 主要ベンチマークで最高評価

出典:https://mp.weixin.qq.com/s/hP-r8h-LliFUPYKbd3lkUQ

概要ポイント
  • Alibaba Cloudが最新の大規模言語モデル「Qwen2.5-Max」を発表。
  • 20兆トークン以上のデータで事前学習し、AI性能が大幅に向上。
  • 知識、プログラミング、総合評価、人間の好みに対する適合性で最高評価を記録。
  • Claude-3.5-SonnetやGPT-4oと同水準の性能を持ち、主要オープンソースモデルを超える結果。
  • 開発者向けにQwen Chatで無料体験が可能、企業は阿里雲APIを通じて利用可能。
本文

Alibaba Cloud(阿里雲、Aliyun)は1月29日、新たな大規模言語モデル「Qwen2.5-Max」を発表した。本モデルは20兆トークン以上のデータで事前学習され、知識やプログラミング、総合評価、人間の好みに対する適合性といった主要なAIベンチマークテストで世界トップクラスのスコアを記録した。

Qwen2.5-Maxは、Alibaba Cloudの通義(Tongyi)チームによる最新のMixture of Experts(MoE)アーキテクチャの成果であり、これまでのQwenモデルの性能を大幅に向上させた。特に、大学レベルの知識を問う「MMLU-Pro」、プログラミング能力を評価する「LiveCodeBench」、総合的な能力を測る「LiveBench」、人間の好みに適応する「Arena-Hard」などの主要ベンチマークで高い評価を受けた。

ベンチマークの結果では、Claude-3.5-Sonnetと並び、GPT-4o、DeepSeek-V3、Llama-3.1-405Bなどの最新オープンソースモデルをほぼすべての指標で上回る結果を示した。また、指示(Instruct)モデルおよび基盤(Base)モデルの両方がテストされ、それぞれで優れた性能を発揮している。

現在、開発者は「Qwen Chat」(https://chat.qwenlm.ai/)でQwen2.5-Maxを無料で試すことができる。企業や研究機関向けには、Alibaba Cloudの「百炼(Bailian)」プラットフォームで新モデルのAPIが提供されており、商業用途での活用も可能だ。また、Qwen Chatでは、直接モデルと対話するだけでなく、アーティファクトや検索機能の利用もできる。

Alibaba Cloudの通義チームは、今後もデータ量とモデルパラメータの拡大を続け、さらなる性能向上を目指すとしている。次世代のQwen2.5-Maxでは、学習スケーリングの強化や強化学習(RL)技術の最適化を進め、AIの知能レベルを人間を超える水準へと引き上げることを目標に掲げている。

Qwen2.5-Maxの登場により、AIの性能競争はさらに激化することが予想される。Alibaba Cloudの新たな取り組みが、業界全体にどのような影響を与えるのか、今後の展開に注目が集まる。