テンセントの大規模言語モデル「Hunyuan(混元)」、Chatbot Arenaで世界13位に浮上 SuperCLUEでも中国トップクラス

出典:https://mp.weixin.qq.com/s/swYPeGAvqDBmiQTeA7NJ9A

概要ポイント
  • Hunyuan(混元)がChatbot Arenaで初の世界13位にランクイン。
  • 匿名ユーザーによる直接対決型評価で高得点を獲得。
  • SuperCLUE 3月報告で国内第2位、実用能力は国内トップ。
  • 応用能力×推理能力の象限で「卓越領導者」に分類。
  • 次世代モデル「T1」が3月21日に発表予定。
本文

米カリフォルニア大学バークレー校などが支援する非営利団体「LMSYS Org」による大規模言語モデルの評価プラットフォーム「Chatbot Arena」の最新ランキングで、テンセントが開発する大規模言語モデル「Hunyuan(混元)」が初めて13位にランクインした。この評価は、ユーザーが匿名で複数のモデルと実際に対話し、優れた方に投票するという形式を採用しており、より実使用に近い比較が可能とされている。


Hunyuan(混元)は、2025年3月時点で「Arena Score:1301」を記録し、OpenAIやGoogle、Alibabaの主要モデルと肩を並べるポジションに躍り出た。ランキング入りは今回が初となるが、テンセントは「これは始まりに過ぎない」として、今後さらに上位を狙う姿勢を見せている。


一方、中国語モデルに特化したベンチマーク評価「SuperCLUE」でも、Hunyuan(混元)は最新版「Turbo S」で高評価を得ている。総合スコアは62.49で国内第2位。中でもコード生成(74.49点)や知識推理(70.09点)で高スコアを記録し、テキスト理解・創作やエージェント能力などを含む応用能力では、国内モデル中で最高点をマークした。


SuperCLUEが公開したモデル象限図では、Hunyuan(混元)は「推理能力」と「応用能力」の双方で優れる「卓越領導者」領域に位置付けられている。この領域にはOpenAIのGPT-4.5やAnthropicのClaude 3.5、GoogleのGemini 2.0シリーズなど、世界的に最先端のモデルが集まっており、テンセントのプレゼンス向上が鮮明となった。


さらに、テンセントは次世代推理特化型モデル「T1」の発表を予告しており、2025年3月21日23時(北京時間)にライブ配信を実施する予定。今回の快進撃を弾みに、Hunyuanシリーズが次のフェーズに突入する可能性が高い。