アリババ、Tongyi LabのDeepResearchをフルオープンソース化──研究型AIの新たな訓練パラダイムと実応用

出典:https://mp.weixin.qq.com/s/23b-aWTArhATJRupaTYC8A

Tongyi Lab DeepResearch
概要ポイント
  • Tongyi LabのDeepResearchをモデル・フレームワーク・データ生成ごとオープンソース化。
  • 自動合成データにより人手を介さず高品質学習データを生成。
  • Agentic CPT→SFT→RLの新訓練パラダイムを確立。
  • 高徳地図や法律研究支援での実応用を確認。
  • GitHub・Hugging Face等でソースコード・モデルを公開。
本文

アリババの研究組織Tongyi Labは、研究型AI「DeepResearch」を全面オープンソース化した。公開対象はモデル本体だけでなく、データ合成手法、フレームワーク、強化学習環境を含む包括的な研究基盤である。DeepResearchは、人間を超える研究能力を持つエージェントの実現を目指し、データ生成から推論方式まで一貫した革新を導入している。


データ面では、Agentic Continual Pre-training(CPT)を組み込むことで基盤モデルを強化。WebWalkerやWebSailorといった系列研究を発展させ、知識グラフ構築、難度可変のQA合成、PhDレベルの学科データ生成を自動化し、拡張性の高いデータフライホイールを形成している。


推論面では、ReAct形式に加え「Iterative Deep-Research Paradigm」を導入。研究タスクを複数ラウンドに分解し、情報の圧縮・再構築を繰り返すことで、長期的かつ複雑な探索を効率化している。並行エージェントを統合するResearch-Synthesisフレームワークにより、より精度の高い結論導出も可能となった。


訓練プロセスはAgentic CPT→SFT→RLの流れで統合され、GRPOベースの強化学習によりエージェント行動を最適化。高品質な合成データと安定したシミュレーション環境を活用し、効率的かつ堅牢な訓練を実現した。


実応用としては、高徳地図と共同で世界初のAIネイティブ出行エージェントを開発し、リアルタイム交通や天候を踏まえた最適経路案内を実現。また、法律研究支援ツール「Tongyi Law Agent」では条文や判例検索の自動化により、国際的なモデルを上回る精度を示した。


今回の全面公開により、開発者はGitHubやHugging Face、ModelScopeでコードやモデルを入手可能となり、学術・産業双方で研究型AIの活用が加速することが期待される。