テンセント、Hunyuan Large-Visionを発表──LMArena Visionで中国勢トップ、マルチ言語・多モーダル理解を強化

出典:https://mp.weixin.qq.com/s/J7is75P2VDkO6cS3hpCY4A

概要ポイント
  • LMArena Visionで1256点、中国開発モデルとして最高評価を獲得。
  • 任意解像度の画像・動画・3D空間入力に対応。
  • MoE構造で389Bパラメータ・52B活性化を実現。
  • 視覚・多言語推論強化のための独自学習戦略を採用。
  • 既にTencent Cloudで利用可能。
本文

テンセントは新たな多モーダル理解モデル「Hunyuan Large-Vision」を発表した。本モデルはMoE構造を採用し、389Bパラメータ・52B活性化パラメータを備え、任意解像度の画像、動画、3D空間入力を処理可能。特に多言語理解と推論能力が強化され、国際評価指標LMArena Visionで1256点を記録し、GPT-4.5やClaude-4-Sonnetと同水準、中国で開発されたモデルとしては最高評価を獲得した。学術評価OpenCompassでも平均79.5点を獲得し、視覚推論・動画理解・3D理解で優れた結果を示した。


技術面では、数十億パラメータの原生分辨率対応ViTエンコーダと自適応下采样MLPコネクタ、MoE言語モデルを組み合わせ、高精度な視覚認識と多言語推論を実現。さらに400Bトークン以上の高品質多モーダル指令データ生成、拒否サンプリングによる品質向上、長思考モデルから短思考モデルへの蒸留によって、推論性能とデータ効率を向上させた。


Hunyuan Large-Visionは既にTencent Cloudで提供され、撮影による問題解決、画像翻訳、動画要約など多様な業務シナリオで活用可能。今後もHunyuanチームは多モーダル理解技術の研究開発を継続し、産業応用を加速させる方針を示している。