バイトダンスのSeedチームは、次世代ベクトルモデル「Seed1.5-Embedding」の技術仕様を発表した。Doubao-1.5-proを基盤に構築された本モデルは、検索・分類・クラスタリングといった自然言語理解タスクに特化しており、MTEBとBRIGHT両ベンチマークにおいて英中ともにSOTA(State-of-the-Art)を記録した。
モデル構造は双塔型Siameseアーキテクチャを採用。MoE(Mixture of Experts)とMRL(Multi-Resolution Learning)により、処理速度と柔軟性を両立し、異なるベクトル次元に効率的に対応。二段階の訓練では、無監督データによる前段階と、監督・合成データによる後段階に分かれており、学習精度と汎用性を高めている。
特に難負例の自動抽出と偽負例フィルタリング、さらには推論密集型データの自動生成により、検索精度を大幅に向上。英語・中国語の両方でGoogleのGeminiやNVIDIAのNV-Embedを上回る性能を示し、堅牢なマッチング能力を備えていることが証明された。
本モデルは今後、Doubao(豆包)アプリの検索リコールへの実装が予定されており、ユーザー向け検索精度の向上に貢献する。APIもVolcano Ark(火山方舟)を通じて近日中に公開される予定で、今後さらに広範な検索やRAG用途での応用が期待されている。