UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025年09月02日
  • 简介
    图形用户界面(GUI)自主代理的发展在人工智能领域面临重大挑战。尽管近年来原生代理模型取得了一定进展,通过端到端学习将感知、推理、行动与记忆统一起来,但在数据可扩展性、多轮次强化学习(RL)、仅限GUI操作的局限性以及环境稳定性方面仍存在未解难题。在本技术报告中,我们提出了UI-TARS-2,这是一种以GUI为核心的原生代理模型,通过一套系统化的训练方法来应对上述挑战:包括用于可扩展数据生成的数据飞轮机制、稳定的多轮次强化学习框架、融合文件系统和终端的混合GUI环境,以及支持大规模部署的统一沙盒平台。实证评估表明,UI-TARS-2相较于其前代版本UI-TARS-1.5实现了显著提升。在GUI基准测试中,它在Online-Mind2Web上达到88.2分,在OSWorld上达到47.5分,在WindowsAgentArena上达到50.6分,在AndroidWorld上达到73.3分,全面超越了如Claude和OpenAI代理等强大的基线模型。在游戏环境中,它在15款游戏组成的测试集上达到了59.8的平均归一化得分——约为人类水平表现的60%,并且在LMGame-Bench测试中与前沿的专有模型(如OpenAI o3)保持竞争力。此外,该模型还能泛化到长视野的信息检索任务和软件工程基准测试,突显了其在多种代理任务中的鲁棒性。对训练动态的深入分析还提供了在大规模代理强化学习中实现稳定性和效率的洞见。这些结果进一步表明,UI-TARS-2有望推动GUI代理技术的发展,并在真实世界交互场景中展现出强大的泛化能力。
  • 作者讲解·1
  • 解决问题
    论文旨在解决构建图形用户界面(GUI)自主代理模型中的几个核心挑战,包括数据可扩展性、多轮强化学习(RL)的稳定性、GUI操作的局限性以及环境稳定性问题。这是一个重要的问题,因为随着人工智能代理在现实世界中的应用越来越广泛,如何高效、稳定地训练这些代理在复杂、动态的GUI环境中进行决策和操作,是当前AI研究中的一个热点和难点。
  • 关键思路
    论文提出UI-TARS-2,一个以GUI为中心的原生代理模型,通过系统化的训练方法解决上述问题。其关键思路包括:1)构建一个数据飞轮机制以实现大规模数据生成;2)设计一个稳定的多轮强化学习框架;3)开发一个融合文件系统与终端操作的混合GUI环境;4)提供一个统一的沙盒平台支持大规模实验部署。这些设计相比现有研究更注重训练过程的系统性和可扩展性,代表了在GUI代理建模方面的范式转变。
  • 其它亮点
    1. UI-TARS-2在多个GUI基准测试中表现优异,如Online-Mind2Web(88.2)、OSWorld(47.5)、WindowsAgentArena(50.6)和AndroidWorld(73.3)。 2. 在15个游戏组成的测试套件中达到平均归一化得分59.8,约为人类水平的60%,并在LMGame-Bench上与前沿闭源模型(如OpenAI o3)保持竞争力。 3. 模型展现出在长视野信息检索任务和软件工程基准上的泛化能力。 4. 论文深入分析了训练动态,为大规模代理强化学习的稳定性和效率提供了新见解。 5. 该研究可能推动GUI代理技术在真实场景中的应用,如自动化测试、用户辅助系统、智能助手等。
  • 相关研究
    1. Mind2Web: Towards a Minimalist Foundation Agent for Web Navigation 2. OSWorld: Benchmarking AI Agents in Operating System Environments 3. AgentBench: Evaluating Multi-Agent LLMs in Realistic Desktop Environments 4. Visual Reinforcement Learning with Self-Supervised Rewards for Autonomous GUI Agents 5. Deep Reinforcement Learning for Task Automation in GUI-based Applications
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问