AIスタートアップSimular.aiが開発したエージェントフレームワーク「Agent S2」が2025年4月1日にアップデートされ、OSWorld、WindowsAgentArena、AndroidWorldの3つの主要ベンチマークで新たなSOTA(最先端)結果を記録した。この発表と同時に、関連論文とコードもGitHub上で公開されている。
Agent S2は、従来の一体型モデルとは異なり、計画(Planning)、実行(Execution)、インターフェース操作(Interaction)を独立したモジュールで処理する「合式(Modular)」設計を採用している。具体的には、MoG(専門家モジュール呼び出し)やPHP(動的計画調整)といったコンポーネントによって、より人間に近い柔軟なGUI操作を可能にしている。
GitHub上のプロジェクトページでは、ベンチマーク用ログファイルや設定、再現可能な実験環境も公開されており、他の研究者が容易に性能検証を行える設計になっている。
現在、エージェントの開発にはGUI操作型、API直接型、コマンドライン型の三つのアプローチが存在する。Agent S2はGUI操作型に該当し、Manusと同様に人間の操作感に近い表現が可能だが、一方でAPI型のGensparkなどに比べてタスク処理速度は劣る傾向にある。このような設計の選択は、性能・柔軟性・操作性という三つの要素の間でのトレードオフを意味している。
さらに、近年よく語られる「Less Structure, More Intelligence(構造を減らし知能を引き出す)」という潮流に対し、Agent S2はあえてモジュール分離という構造化を強調する設計を採用している点も注目に値する。これは、モデルが十分に賢くなるまでは、人為的な構造がむしろ実用性を高めるという実践的観点に基づいている。
また、優れたエージェントは単なる処理速度や精度だけでなく、タスクの流れを最適化し、自律的にエラーを検知・修正できる能力を持つ。こうした「能力の増幅」こそが、現在のAIエージェント設計の核心となっている。
Simular.aiはこのような新しいエージェント設計を通じて、将来的なAGI実現への道筋を提示している。今後もその開発動向から目が離せない。