Scaling Agent Learning via Experience Synthesis

2025年11月05日
  • 简介
    尽管强化学习(RL)能够通过交互实现自主智能体的自我提升,但其实际应用仍面临诸多挑战,包括高昂的 rollout 成本、任务多样性不足、奖励信号不可靠以及基础设施复杂等问题,这些因素共同阻碍了可扩展经验数据的收集。为应对这些挑战,我们提出了 DreamGym,这是首个以可扩展性为核心设计的统一框架,旨在合成多样化经验,从而支持对自主智能体进行高效的在线强化学习训练。DreamGym 不依赖于昂贵的真实环境 rollout,而是将环境动态提炼为一种基于推理的经验模型,该模型通过逐步推理生成一致的状态转移和反馈信号,从而实现可扩展的智能体 rollout 数据采集。为了提高状态转移的稳定性与质量,DreamGym 利用一个经验回放缓冲区,该缓冲区初始时包含离线真实世界数据,并持续融入新的交互数据,以主动支持智能体的训练过程。为了提升知识获取效率,DreamGym 能够自适应地生成新的任务,以挑战当前智能体的策略,从而实现更有效的在线课程学习。在多种不同环境和智能体架构上的实验表明,DreamGym 在完全合成的场景以及从仿真到现实的迁移场景中均显著提升了强化学习的训练效果。在 WebArena 等原本不适用于强化学习的任务上,DreamGym 的表现超过所有基线方法 30% 以上;而在适合强化学习但成本高昂的场景中,仅使用合成交互即可达到与 GRPO 和 PPO 相当的性能。当将在纯合成经验上训练出的策略迁移到真实环境的强化学习中时,DreamGym 在大幅减少真实世界交互需求的同时,带来了显著的额外性能提升,为通用型强化学习提供了一种可扩展的预热启动策略。
  • 作者讲解
  • 图表
  • 解决问题
    强化学习(RL)在赋能自主智能体方面具有巨大潜力,但其实际应用受限于真实环境交互成本高、任务多样性不足、奖励信号不可靠以及基础设施复杂等问题,导致难以高效收集可扩展的经验数据。该论文试图解决如何在减少真实环境 rollout 的前提下,实现高效、稳定的在线强化学习训练,这是一个现实中亟待突破的问题,尤其在现实世界部署场景中具有重要意义。
  • 关键思路
    DreamGym 提出首个统一框架,通过将环境动态提炼为基于推理的经验模型,利用逐步推理生成一致的状态转移和反馈信号,从而合成多样化且可扩展的虚拟经验用于在线 RL 训练。其核心创新在于:1)用推理模型替代真实 rollout 生成经验;2)结合离线真实数据初始化并持续更新的经验回放缓冲区以提升稳定性;3)自适应生成挑战性新任务,实现高效的在线课程学习。相比传统依赖仿真或真实交互的方法,DreamGym 实现了无需昂贵环境调用的高质量训练数据生成。
  • 其它亮点
    实验涵盖多种环境与不同智能体架构,验证了 DreamGym 在纯合成环境和 sim-to-real 转移场景下的有效性。在非 RL 友好任务 WebArena 上性能超过所有基线 30% 以上;在高成本 RL 场景中,仅使用合成交互即可达到 GRPO 和 PPO 的性能水平;当将纯合成训练的策略迁移到真实环境时,显著提升了后续表现且所需真实交互极少,展现出强大的 warm-start 能力。目前尚未提及代码是否开源,但其方法为低成本通用 RL 提供了新范式,值得进一步探索推理模型与策略学习的联合优化。
  • 相关研究
    1. 'Voyager: An Open-Ended Embodied Agent with Large Language Models' (2023) 2. 'Reinforcement Learning with Language Feedback' (NeurIPS 2022) 3. 'Dreamer: Building World Models for Model-Based Reinforcement Learning' (ICLR 2020) 4. 'Model-Based Reinforcement Learning via Latent-Space Dynamics and Temporal Difference Learning' (2019) 5. 'Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey' (JMLR 2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问