The Unreasonable Effectiveness of Scaling Agents for Computer Use

2025年10月02日
  • 简介
    计算机使用智能体(CUAs)在自动化日常数字任务方面展现出巨大潜力,但其不可靠性和表现波动性限制了其在长期、复杂任务中的应用。我们提出了“行为最优N选”(Behavior Best-of-N,简称bBoN)方法,该方法通过生成多个执行轨迹,并利用描述这些轨迹的行为叙述来筛选最优结果,从而实现跨智能体的扩展。该方法既支持广泛的探索,又能进行有原则的轨迹选择,显著提升了系统的鲁棒性和任务成功率。在OSWorld基准上,我们的bBoN扩展方法以69.9%的成绩创下新的最先进水平(SoTA),明显优于以往方法,并接近人类72%的表现水平,详尽的消融实验也验证了关键设计要素的有效性。我们还在WindowsAgentArena和AndroidWorld上展示了该方法对不同操作系统的良好泛化能力。尤为重要的是,我们的研究结果表明,在正确实施的前提下,扩展CUAs具有出人意料的强大效果:有效的扩展依赖于对执行轨迹的结构化理解与筛选,而bBoN为此提供了一个切实可行的框架。
  • 作者讲解
  • 图表
  • 解决问题
    计算机使用代理(CUAs)在自动化日常数字任务方面具有潜力,但其不可靠性和高方差限制了其在长周期、复杂任务中的应用。该论文试图解决如何提升CUAs在复杂、跨平台环境下的鲁棒性和成功率的问题,特别是通过有效的扩展策略来实现更稳定的行为决策。这是一个关键且日益重要的问题,尤其在追求通用AI助手的背景下,但此前缺乏系统性的解决方案。
  • 关键思路
    提出Behavior Best-of-N(bBoN)方法,通过生成多个执行轨迹(rollouts),并利用行为叙述(behavior narratives)对这些轨迹进行描述和比较,从而实现基于语义理解的轨迹选择。这一方法将结构化的推理引入扩展过程,使得在广泛探索的同时能进行原则性选择,显著提升了性能。相比以往依赖单一路径或简单打分机制的方法,bBoN强调对代理行为的整体语义理解与筛选,是一种更智能的‘扩展’范式。
  • 其它亮点
    在OSWorld基准上达到69.9%的准确率,接近人类水平(72%),创下新的SOTA;在WindowsAgentArena和AndroidWorld上展示了出色的跨平台泛化能力;进行了详尽的消融实验验证行为叙述、N的大小等设计要素的有效性;结果表明,正确的扩展方式——即结合行为理解和选择——具有‘不合理地高效’的效果;代码与数据有望推动社区发展(虽未明确提及开源,但实验可复现性较强)。未来可探索更精细的行为建模、自动叙述生成以及与其他规划机制的结合。
  • 相关研究
    1. 'Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Tasks' (Chen et al., NeurIPS 2023) 2. 'Voyager: An Open-Ended Embodied Agent with Large Language Models' (Wang et al., arXiv 2023) 3. 'RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robot Control' (Brohan et al., arXiv 2023) 4. 'Large Language Models as Agents: A Survey' (Yang et al., arXiv 2024) 5. 'OSWorld: Benchmarking AI Agents in Desktop Environments' (Zhou et al., ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问