バイトダンス、英中対応の埋め込みモデル「Seed1.5-Embedding」公開──推論型検索でSOTA達成

出典:https://mp.weixin.qq.com/s/gBcUyNxE1aqq_3wXksmOzA

概要ポイント
  • 英中両対応のベクトルモデルとしてMTEBとBRIGHTでSOTA性能を記録。
  • 二段階の学習構成とMoE構造により推論・検索精度を大幅向上。
  • 高品質な難負例抽出と偽負例フィルタリングで学習効率を最適化。
  • MRLにより256~2048次元までの多様なベクトルサイズに対応。
  • Hugging Faceで公開済、APIはVolcano Ark(火山方舟)経由で提供予定。
本文

バイトダンスのSeedチームは、次世代ベクトルモデル「Seed1.5-Embedding」の技術仕様を発表した。Doubao-1.5-proを基盤に構築された本モデルは、検索・分類・クラスタリングといった自然言語理解タスクに特化しており、MTEBとBRIGHT両ベンチマークにおいて英中ともにSOTA(State-of-the-Art)を記録した。


モデル構造は双塔型Siameseアーキテクチャを採用。MoE(Mixture of Experts)とMRL(Multi-Resolution Learning)により、処理速度と柔軟性を両立し、異なるベクトル次元に効率的に対応。二段階の訓練では、無監督データによる前段階と、監督・合成データによる後段階に分かれており、学習精度と汎用性を高めている。


特に難負例の自動抽出と偽負例フィルタリング、さらには推論密集型データの自動生成により、検索精度を大幅に向上。英語・中国語の両方でGoogleのGeminiやNVIDIAのNV-Embedを上回る性能を示し、堅牢なマッチング能力を備えていることが証明された。


本モデルは今後、Doubao(豆包)アプリの検索リコールへの実装が予定されており、ユーザー向け検索精度の向上に貢献する。APIもVolcano Ark(火山方舟)を通じて近日中に公開される予定で、今後さらに広範な検索やRAG用途での応用が期待されている。