バイトダンス(字節跳動)は、視覚と言語を統合したモデル「UI-TARS」を基盤とする多機能AIエージェント「TARS」を開発し、オープンソースとして公開した。TARSは、スクリーンショットを唯一の入力として受け取り、人間のようなキーボードやマウス操作を行うネイティブGUIエージェントモデルである。
従来のエージェントフレームワークは、GPT-4などの商用モデルに依存し、専門的に作成されたプロンプトやワークフローを必要とすることが多かった。しかし、UI-TARSはエンドツーエンドのモデルであり、これらの複雑なフレームワークを上回る性能を示している。
具体的には、10以上のGUIエージェントベンチマークで最先端の性能を達成しており、OSWorldベンチマークでは、50ステップで24.6、15ステップで22.7のスコアを記録し、Claudeの22.0および14.9を上回った。また、AndroidWorldでは46.6のスコアを達成し、GPT-4oの34.5を凌駕している。
UI-TARSは、視覚ベースの環境認識と自然言語による操作指示を組み合わせ、検索、ファイル編集、シェルコマンドの実行といった作業を一貫したワークフローとして処理可能にしている。これにより、従来は人間が逐一介入していた工程を、AIが一貫して完遂できるようになる。例えば、「杭州から威海への清明節旅行計画をMarkdown形式で提案してほしい」といった自然なリクエストにも、ブラウザでの検索やルート選定、整理された出力までを一手に引き受ける。また、テスラ株の将来的な動向を技術面から分析するといった高度な指示にも対応する。
開発者向けには、TARSのデスクトップアプリケーションが用意されており、WindowsおよびMacOS上で動作する。ブラウザビュー、セッション管理、モデル設定、ツールのステータス可視化など多くの機能を備え、GUIベースでの開発・検証も容易に行える。また、MCP(モデルコンテキストプロトコル)を活用し、異なるツール間のスムーズな情報共有を可能としている。ユーザーは、タスク進行中でも自由に新しい指示を追加でき、エージェントはそれを柔軟に受け入れて計画を変更。タスクが完了した後は、結果を共有リンクとして出力することも可能だ。
TARSのアーキテクチャは、GUIエージェント開発のためのフレームワークとしても活用できるよう設計されており、個別のツール(Search、Browse、LinkClickなど)を組み合わせて高度なエージェントシステムを構築することができる。すべての操作はローカル環境で完結するため、プライバシーとセキュリティ面でも信頼性が高い。GitHubの公開リポジトリには詳細なREADMEとクイックスタートガイドが掲載されており、開発者は容易にTARSの環境を構築し、自身のニーズに合わせてカスタマイズできる。
バイトダンス(字節跳動)はTARSのほかにも、同じくAIエージェント領域で「langmanus」という新規プロジェクトを公開しており、こちらはLangGraphを基盤に構築された入門者向けの開発リソースとして位置づけられている。一方、非公開で開発中の「Dev Agent」も存在し、社内ツールとナレッジベースを統合して複雑業務を遂行する機能を備えているとされる。こうした一連の動きは、同社がAIエージェント分野で本格的な競争に参入する意図を示している。