テンセントが新たな推理特化モデル「Hunyuan T1(混元T1)」を正式リリース、推理力・長文処理・コスト性能で大幅進化

出典:https://mp.weixin.qq.com/s/38ilIogkFK8tbgRFDSXdSw

概要ポイント
  • Hunyuan T1(混元T1)は強力な推理性能と超長文処理能力を備えたテンセント独自の大規模言語モデル。
  • MMLU-PRO、CEvalなど複数ベンチマークで業界上位の性能を記録。
  • Hybrid-Mamba-Transformer構造で計算効率とコストを最適化。
  • 長文における文脈保持力と推理能力が向上し、デコード速度は2倍に。
  • APIはテンセントクラウドで提供され、価格は入力1元/出力4元(百万トークン単位)。
本文

テンセントは自社開発による深度思考モデル「Hunyuan T1(混元T1)」の正式版をリリースした。Hunyuan T1は自然言語の理解や推論を強化するために、大規模な強化学習と数理・論理・科学・コードといった理系分野への特化チューニングが施されている。正式版は従来比で推理性能がさらに向上し、特に超長文の文脈保持と情報依存関係の解析に強みを持つ。


ベンチマークでは、大規模言語モデル評価セット「MMLU-PRO」で87.2点を記録し、これは業界トップクラスの水準。CEval、AIME、Zebra Logicなどの中国語・英語対応テストでも優れたスコアを残している。また、タスクの適応性においても、指示追従やツール活用といった実用性の高い領域で高い性能を発揮している。


モデル構造には、業界初となる「Hybrid-Mamba-Transformer」融合アーキテクチャを採用。これは従来のTransformer構造に比べて計算負荷を抑えつつ、KVキャッシュのメモリ使用を削減。結果として、トレーニングや推論のコストを大幅に抑えることに成功している。さらに長文処理では、高効率な演算方式によって、同等の活性化パラメータ数でデコード速度が2倍に向上するなど、実用面での改善が際立っている。


APIは既にテンセントクラウド上で利用可能となっており、価格は入力トークン100万あたり1元、出力トークン100万あたり4元に設定されている。試用希望の企業向けには申請ページも用意されている。