チャイナAI速報

January 22/2025

「豆包1.5Pro」正式発表：多モーダル・推論能力を大幅強化

出典：https://mp.weixin.qq.com/s/C6vm5zERKm9_3OCIQrbLJA

概要ポイント

豆包1.5Pro発表：知識・コード・推論・中国語などの分野で高性能を発揮。
高効率なMoEアーキテクチャ：従来比3倍の計算効率向上と低コスト化を実現。
多モーダル対応強化：視覚認識・音声生成の精度向上により表現力を拡大。
独自データ運用：外部AIモデルのデータを使用せず、独自の高品質データを活用。
API提供：豆包アプリと火山引擎経由で開発者向けにサービスを開放。
今後の展望：AGI研究を推進し、多モーダルAIの進化を目指す。

本文

ByteDance傘下の豆包（Doubao）チームは、新世代の大規模言語モデル「豆包1.5Pro」を正式に発表した。本モデルは、知識（MMLU_PRO、GPQA）、コード（McEval、FullStackBench）、推論（DROP）、中国語（CMMLU、C-Eval）などの公開ベンチマークで高評価を獲得し、従来モデルを大幅に上回る性能を示した。

豆包1.5Proは、大規模なMoE（Mixture of Experts）アーキテクチャを採用することで、少ないアクティブパラメータで高効率な推論を実現し、計算コストの最適化を図った。従来のMoEモデルと比較して、計算効率は約3倍向上しており、計算リソースの活用効率も大幅に改善された。また、独自開発のネットワークプロトコルを最適化し、通信の安定性を確保しつつ、分散推論の性能を向上させた。

さらに、本モデルでは多モーダル処理の強化が図られ、視覚理解と音声処理の精度が向上した。新たに導入された「Doubao-1.5-vision-pro」は、視覚認識分野において最先端の性能を発揮し、「Doubao-1.5-realtime-voice-pro」はSpeech2Speechのエンドツーエンドフレームワークを採用することで、方言や歌唱を含む自然な発話生成が可能となった。これにより、従来の音声AIモデルと比較して、表現力とリアルタイム性の両面で優位性を確立した。

豆包チームは、モデルの訓練データについても独自のアプローチを採用し、他のAIモデルが生成したデータを一切使用しない体制を構築している。ラベリングチームと自己学習技術（self-play）を組み合わせることで、データの品質と多様性を確保し、高い信頼性を持つトレーニングデータの生成を実現した。これにより、モデルの独立性と信頼性が強化され、より安定した学習環境が整備された。

また、豆包1.5Proは、豆包アプリを通じて提供されるほか、開発者向けにAPIも公開されている。火山引擎（VolcEngine）を通じて外部サービスとの統合が可能となり、より多くの企業や開発者が豆包1.5Proの高性能なAI機能を活用できる環境が整った。

豆包チームは、今後も長期的な研究開発を継続し、さらなる多モーダル対応の進化や計算効率の向上に取り組む方針を示している。AGI（汎用人工知能）に向けた基礎研究を推進し、AI技術の新たな展開を目指す中で、豆包1.5Proの進化がどのような影響をもたらすのか、業界の注目が集まっている。