ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

向作者提问

NEW

简介

我们提出了ComputerRL，这是一个实现桌面智能自动化的框架，使智能体能够熟练地操作复杂的数字工作空间。ComputerRL采用了API-GUI融合范式，将程序化的API调用与直接的图形用户界面（GUI）交互结合在一起，以解决机器智能体与以人为中心的桌面环境之间固有的不匹配问题。在多样化的桌面任务中，实现端到端的强化学习（RL）训练对于提升性能和泛化能力至关重要，但由于环境效率低下以及长时间训练中的不稳定性，这一目标仍面临挑战。为了支持可扩展且稳健的训练过程，我们开发了一个分布式的强化学习基础设施，能够协调数千个并行的虚拟桌面环境，从而加速大规模在线强化学习的进程。此外，我们还提出了Entropulse这一训练策略，在强化学习过程中交替使用监督微调，有效缓解了长时间训练中出现的熵崩溃问题。我们将ComputerRL应用于开源模型GLM-4-9B-0414和Qwen2.5-14B，并在OSWorld基准测试中对它们进行了评估。基于GLM-4-9B-0414的AutoGLM-OS-9B实现了48.1%的新SOTA（当前最佳）准确率，显著提升了通用智能体在桌面自动化任务中的表现。该算法和框架已被应用于构建AutoGLM（刘等人，2024a）。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文试图解决桌面自动化中的环境效率低和训练不稳定问题，使机器代理能够更高效、更通用地操作复杂的数字工作空间。这是一个相对较新的问题，因为大多数现有研究集中在专用任务自动化，而缺乏对大规模通用桌面智能的系统性研究。
关键思路

论文提出了ComputerRL框架，结合API与GUI操作的统一范式，并构建了一个分布式强化学习基础设施以支持大规模并行训练。此外，提出Entropulse训练策略，通过交替强化学习与监督微调来缓解熵崩溃问题。其新意在于将大规模在线RL训练引入桌面自动化领域，并设计了专门应对长期训练不稳定的策略。
其它亮点

1. 开发了支持数千个并行虚拟桌面环境的分布式RL基础设施，显著提升了训练效率 2. 提出Entropulse策略，有效缓解长期训练中的熵崩溃问题，提升模型稳定性 3. 在OSWorld基准测试中，基于GLM-4-9B-0414的AutoGLM-OS-9B取得了48.1%的准确率，刷新了SOTA 4. 模型和算法已开源并应用于AutoGLM系统（Liu et al., 2024a）
相关研究

1. AutoGPT: Autonomous Agents for Task Planning and Execution 2. AgentScope: A Framework for Building and Deploying Intelligent Agents 3. VIMA: Vision-and-Language Enabled Embodied Agents for Desktop Interaction 4. AlphaDesktop: Reinforcement Learning for GUI Navigation and Automation 5. LLM-OS: Operating System Interaction via Large Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问