ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

2025年08月19日
  • 简介
    我们提出了ComputerRL,这是一个实现桌面智能自动化的框架,使智能体能够熟练地操作复杂的数字工作空间。ComputerRL采用了API-GUI融合范式,将程序化的API调用与直接的图形用户界面(GUI)交互结合在一起,以解决机器智能体与以人为中心的桌面环境之间固有的不匹配问题。在多样化的桌面任务中,实现端到端的强化学习(RL)训练对于提升性能和泛化能力至关重要,但由于环境效率低下以及长时间训练中的不稳定性,这一目标仍面临挑战。为了支持可扩展且稳健的训练过程,我们开发了一个分布式的强化学习基础设施,能够协调数千个并行的虚拟桌面环境,从而加速大规模在线强化学习的进程。此外,我们还提出了Entropulse这一训练策略,在强化学习过程中交替使用监督微调,有效缓解了长时间训练中出现的熵崩溃问题。我们将ComputerRL应用于开源模型GLM-4-9B-0414和Qwen2.5-14B,并在OSWorld基准测试中对它们进行了评估。基于GLM-4-9B-0414的AutoGLM-OS-9B实现了48.1%的新SOTA(当前最佳)准确率,显著提升了通用智能体在桌面自动化任务中的表现。该算法和框架已被应用于构建AutoGLM(刘等人,2024a)。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文试图解决桌面自动化中的环境效率低和训练不稳定问题,使机器代理能够更高效、更通用地操作复杂的数字工作空间。这是一个相对较新的问题,因为大多数现有研究集中在专用任务自动化,而缺乏对大规模通用桌面智能的系统性研究。
  • 关键思路
    论文提出了ComputerRL框架,结合API与GUI操作的统一范式,并构建了一个分布式强化学习基础设施以支持大规模并行训练。此外,提出Entropulse训练策略,通过交替强化学习与监督微调来缓解熵崩溃问题。其新意在于将大规模在线RL训练引入桌面自动化领域,并设计了专门应对长期训练不稳定的策略。
  • 其它亮点
    1. 开发了支持数千个并行虚拟桌面环境的分布式RL基础设施,显著提升了训练效率 2. 提出Entropulse策略,有效缓解长期训练中的熵崩溃问题,提升模型稳定性 3. 在OSWorld基准测试中,基于GLM-4-9B-0414的AutoGLM-OS-9B取得了48.1%的准确率,刷新了SOTA 4. 模型和算法已开源并应用于AutoGLM系统(Liu et al., 2024a)
  • 相关研究
    1. AutoGPT: Autonomous Agents for Task Planning and Execution 2. AgentScope: A Framework for Building and Deploying Intelligent Agents 3. VIMA: Vision-and-Language Enabled Embodied Agents for Desktop Interaction 4. AlphaDesktop: Reinforcement Learning for GUI Navigation and Automation 5. LLM-OS: Operating System Interaction via Large Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问