バイトダンスの推論モデル「Seed-Thinking-v1.5」技術詳細公開、200Bパラメータでコスト半減

出典:https://mp.weixin.qq.com/s/WJc9b2cB-Io0YNrBQvfYBA

概要ポイント
  • バイトダンスが新モデル「Seed-Thinking-v1.5」の技術詳細を公開。
  • 数学や科学推論、創作分野でも業界トップレベルの性能を発揮。
  • MoEアーキテクチャ採用で総パラメータ200B・活性20Bを実現。
  • データ構築・報酬設計・RL強化学習まで統合的に設計。
  • 4月17日よりVolcano Engine(火山引擎)経由でAPI公開予定。
本文

バイトダンスのSeedチームは、新たな推論モデル「Seed-Thinking-v1.5」の技術報告を発表した。数学、プログラミング、科学推論といった専門分野から、創造的な文章生成まで幅広いタスクにおいて、OpenAIのo3-miniやGemini 2.5 Proに匹敵する性能を発揮。特にAIME 2024での数学推論スコア86.7、Codeforces競技での55%通過率など、複数のベンチマークで業界最高水準に迫っている。


モデルはMoE(Mixture of Experts)構造を採用し、総パラメータ200B、活性パラメータ20Bに抑えることで、高性能と低コストの両立を実現。推論コストはDeepSeek R1比で50%削減されたという。


技術面では、データ収集段階から細分化が進んでいる。数学やコードのような「可検証」データは、三重フィルタリングと整数化・サンドボックス検証により品質を確保。一方、創作タスクに代表される「非検証」データにはABテストによるペアワイズ報酬学習を適用し、多様な人間的判断を反映したモデルチューニングが行われている。


報酬モデルでは、論理的な正誤を判断する検証器「Seed-Verifier」シリーズと、人間の主観的好みを学習する比較評価システムの二軸を融合。混合タスクにおいても安定した学習を可能にした。


訓練はSFT(教師あり微調整)とRL(強化学習)を段階的に実施。高品質データによる思考プロセスの構築に始まり、可変データ分布や新アルゴリズムの導入によって、長期的かつ複雑な推論能力の底上げが図られている。


さらに、訓練基盤としてHybridFlowプログラミングモデルとSRS(Stream Reasoning System)を導入。三層並列構造によりGPU利用の最適化が図られ、大規模モデルでも安定性95%を維持。推論と訓練の分離による3倍の高速化も達成された。


同チームは今後、超高難易度数学ベンチマーク「BeyondAIME」を公開予定。4月17日からはVolcano Engine(火山引擎)を通じてSeed-Thinking-v1.5のAPIを一般公開し、業界全体の技術進化を促進していく。