バイトダンス、「思考する操作エージェント」UI-TARS-1.5を公開──複雑GUIやゲーム操作で最高性能達成

出典:https://mp.weixin.qq.com/s/gRqyNlF8BTkh9f36UlW3ew

概要ポイント
  • UI-TARS-1.5は複雑なGUI操作をこなす「ユーザー操作エージェント」。
  • 推論→行動のプロセスで高精度な実行力を実現。
  • 7つのGUIベンチマークでSOTA(最高性能)を記録。
  • poki.comのゲームやMinecraftで自己最適化能力を検証。
  • ソースコード、デモ、論文すべてをオープンで提供中。
本文

バイトダンスは、視覚情報と操作スキルを統合した次世代エージェント「UI-TARS-1.5」をオープンソースで公開した。本モデルは、直感的なUI操作やゲーム環境下での複雑タスクに対応し、実行前に思考を挟む“考えてから動く”仕組みによって、より高精度で柔軟な判断と行動を可能にしている。


UI-TARS-1.5は、画像認識を用いたファイル整理、ウェブブラウザでの自動ダウンロード、GUIの深部操作など多彩な操作に対応。7つのGUI操作ベンチマークでいずれも高評価を獲得し、特に高難度とされるScreenSpotProでは61.6%の精度を達成。他モデルを大きく上回った。


特徴的なのは、ゲームという環境を通じて、抽象的なルール理解や柔軟な推論力を強化している点だ。14種類のオンラインゲームでは安定したスコアと再現性を示し、さらに三次元・リアルタイム操作を要求されるMinecraftの評価タスクでも、OpenAIやDeepMindの代表モデルを上回る結果を残した。


こうした性能の裏には、四つの技術的支柱がある。①スクリーンショットベースの視覚理解、②System 2に基づく段階的思考メカニズム、③マウス・キーボード操作を統一する動作制御、④失敗を通じて学習する自律トレーニング手法。従来の操作AIが抱える“粒度の粗さ”や“意図の不一致”といった課題を大きく克服している。


また、UI-TARSは従来の「フレームワーク型エージェント」と異なり、構成部品に依存せず自己完結的に知覚・記憶・推論・行動を備える“統合型思考エージェント”という位置づけで、学習と適応を一体的に行える設計が特徴。強化学習による自己最適化も進み、使えば使うほど賢くなるという「進化型エージェント」の方向性を実証した。


さらに、心理学理論に基づいた「System 2」推論の実装により、単なる命令実行ではなく“意味の理解と目標達成”に向けて自律的に行動。設定不要で高度な判断が可能になり、ユーザーの意図と操作の精度を高い次元で一致させている。


このような成果は、GitHub上でソースコードと操作例を確認可能であり、公式サイトではビジュアルデモを体験できる。また、arXivに掲載された技術論文では、評価スコアや学習構造に関する詳細な知見が開示されている。


今後、UI-TARSの次期バージョン2.0に向けては、より複雑な環境での推論力強化とユーザー体験の向上が予定されており、「考えて動くAI」が人間に近づく未来への一歩として注目される。