- 简介尽管强化学习(RL)能够通过交互实现自我提升,从而赋能大语言模型(LLM)智能体,但其实际应用仍面临诸多挑战,包括高昂的 rollout 成本、任务多样性有限、奖励信号不可靠以及基础设施复杂等问题,这些因素共同阻碍了可扩展经验数据的收集。为应对这些挑战,我们提出了 DreamGym,这是首个面向大规模经验合成的统一框架,旨在支持自主智能体进行高效的在线强化学习训练。DreamGym 不依赖昂贵的真实环境 rollout,而是将环境动态提炼为一种基于推理的经验模型,该模型通过逐步推理生成一致的状态转移和反馈信号,从而实现可扩展的智能体 rollout 数据收集。为了提升状态转移的稳定性和质量,DreamGym 利用一个经验回放缓冲区,该缓冲区以离线真实世界数据初始化,并持续融入新的交互数据,主动支持智能体的训练过程。为了促进知识获取,DreamGym 能够自适应地生成新的任务,以挑战当前智能体的策略,从而实现更有效的在线课程学习。在多种不同环境和智能体架构上的实验表明,DreamGym 在完全合成的场景以及从仿真到现实的迁移场景中均显著提升了强化学习的训练效果。在 WebArena 等原本不适合强化学习的任务上,DreamGym 的表现超过所有基线方法30%以上;而在适合强化学习但成本高昂的场景中,仅使用合成交互即可达到与 GRPO 和 PPO 相当的性能。当将在纯合成经验上训练出的策略迁移到真实环境的强化学习中时,DreamGym 在大幅减少真实交互次数的同时,仍能带来显著的额外性能提升,为通用型强化学习提供了一种可扩展的预热启动策略。
-
- 图表
- 解决问题论文试图解决大语言模型(LLM)代理在实际应用强化学习(RL)时面临的挑战,包括真实环境 rollout 成本高、任务多样性不足、奖励信号不可靠以及基础设施复杂等问题。这些问题导致难以高效、可扩展地收集训练所需的交互经验数据。尽管RL理论上能实现自我改进,但上述障碍限制了其在真实场景中的广泛应用。这是一个现实且日益重要的问题,尤其在推动通用智能体发展的背景下,但尚未有系统性解决方案能同时应对可扩展性、多样性和稳定性挑战。
- 关键思路DreamGym 的核心思想是构建一个基于推理的统一框架,通过将环境动态蒸馏为一个“经验模型”来生成多样化、一致的合成经验,从而避免昂贵的真实环境 rollout。该经验模型利用逐步推理生成状态转移和反馈信号,支持可扩展的在线 RL 训练。此外,DreamGym 引入了一个持续更新的经验回放缓冲区,并结合自适应任务生成机制,实现在线课程学习,提升训练稳定性和效率。相比现有方法,其创新在于将推理驱动的经验合成与动态课程设计、离线-在线混合训练相结合,首次实现了真正面向大规模自主代理训练的合成经验闭环。
- 其它亮点实验覆盖多种环境和不同 LLM 主干网络,验证了 DreamGym 在全合成训练和仿真到现实迁移场景下的有效性。在非 RL 友好任务 WebArena 上性能超过所有基线 30% 以上;在需要真实交互的高成本 RL 场景中,仅用合成数据即可达到 GRPO 和 PPO 的性能水平。更关键的是,纯合成训练后的策略迁移到真实环境时表现出显著增益,且所需真实交互极少,证明其作为可扩展 warm-start 策略的巨大潜力。论文强调了可扩展性和实用性,虽未明确提及开源代码,但其框架设计具备工程落地前景,未来可在更多复杂现实任务中扩展经验模型的泛化能力。
- 1. 'Voyager: An Open-Ended Embodied Agent with Large Language Models' 提出通过技能库和代码执行实现长期探索 2. 'ReAct: Synergizing Reasoning and Acting in Language Models' 探索推理与行动协同机制 3. 'Reflexion: Language Agents with Verbal Reinforcement Learning' 利用语言反馈进行自我反思式学习 4. 'LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model' 展示轻量级适配在多模态任务中的潜力 5. 'Model-Based Reinforcement Learning via Language Feedback' 使用语言描述建模环境动态
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流