チャイナAI速報 | 中国AIニュースを日本語で速報

June 20/2025

「Deep Research」AIの実力を徹底比較──新ベンチマーク「DeepResearch Bench」公開、Geminiが総合首位

概要ポイント

本文

問小白開発チームと中国科学技術大学は、調査系AIエージェントを比較評価する新ベンチマーク「DeepResearch Bench」を発表した。本ベンチマークは100の専門調査タスクを用い、RACE（文章品質）とFACT（引用の網羅性と正確性）の2軸で評価する。

Gemini-2.5-ProはRACE評価で48.88点を獲得し総合首位に立ち、Perplexityは引用精度で優れた結果を示した。またClaude 3.7 Sonnetは、検索機能を持つLLMの中で最もバランスの良いパフォーマンスを記録した。

評価手法の信頼性を確認するため、大学院生による人間評価との一致検証も実施。RACEのスコアは99.54%のPearson一致率を示し、従来のLLM-as-a-Judge方式を大幅に上回った。

本ベンチマークは論文・評価コード・タスクデータを含めて全てオープンソース化されており、今後もタスクの拡充や評価手法の強化を通じて、AIエージェントの性能可視化に貢献していくとされる。