Agent Learning via Early Experience

向作者提问

NEW

简介

语言智能体的一个长期目标是通过自身经验进行学习和提升，最终在复杂的真实世界任务中超越人类。然而，在许多环境中，使用强化学习从经验数据中训练智能体仍然十分困难：这些环境要么缺乏可验证的奖励信号（例如网站），要么需要效率低下的长周期 rollout（例如多轮工具使用）。因此，目前大多数智能体仍依赖于在专家数据上的监督微调，而这种方法难以扩展且泛化能力较差。这一局限性源于专家示范本身的特性：它们仅涵盖狭窄的情景范围，并使智能体接触到的环境多样性有限。为解决这一问题，我们提出一种介于两者之间的新范式——“早期经验”：即由智能体自身行为产生的交互数据，其中后续达到的状态本身即可作为监督信号，而无需奖励信号。在此框架下，我们研究了利用此类数据的两种策略：（1）隐式世界建模，即利用收集到的状态使策略更好地贴合环境动态；（2）自我反思，即智能体从自身的次优行为中学习，以改进推理与决策能力。我们在八种不同的环境以及多个模型家族中进行了评估。实验结果表明，我们的方法持续提升了智能体的有效性和跨领域泛化能力，凸显了“早期经验”的价值。此外，在具备可验证奖励的环境中，我们的结果还显示出积极的迹象：早期经验为后续的强化学习提供了坚实的基础，使其成为连接模仿学习与完全基于经验驱动的智能体之间的一座实用桥梁。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

当前语言智能体主要依赖专家示范数据进行监督微调，但这类数据难以扩展且泛化能力差，限制了智能体在复杂、真实环境中的自主学习与持续提升。同时，强化学习直接从经验中学习面临奖励信号稀疏或不可验证（如网页交互）、长视野 rollout 效率低等问题。论文试图解决如何在缺乏显式奖励的情况下，有效利用智能体自身交互经验来提升性能和泛化能力的问题。这是一个关键但尚未充分解决的问题，尤其在迈向完全自主学习的路径上具有重要意义。
关键思路

提出“早期经验”（early experience）这一中间范式：即利用智能体自身行为产生的状态转换数据作为监督信号，无需奖励标注。核心包含两种策略：（1）隐式世界建模——通过历史状态序列帮助策略模型理解环境动态；（2）自我反思——让模型从失败或次优行为中学习改进推理与决策。该思路填补了模仿学习与强化学习之间的鸿沟，为后续引入奖励信号打下基础。相比现有方法，其创新在于不依赖专家标注也不依赖奖励工程，而是挖掘智能体自身探索过程中的结构化学习信号。
其它亮点

在八个多样化环境中（涵盖工具使用、网页导航等多任务场景）对多个主流模型家族进行了系统评估，结果一致显示早期经验显著提升任务成功率和跨领域泛化能力。实验设计强调无奖励设定下的学习有效性，并验证了该方法可作为强化学习的有利预训练基础。尽管未明确提及开源代码，但方法设计具有可复现性，未来值得深入探索如何结合离线强化学习、因果建模以增强隐式世界模型，以及构建更高效的自我反思机制。
相关研究

1. 'WebGum: Learning to Use the Web via Reinforcement Learning with Verified Rewards', 2023 2. 'Toolformer: Language Models Can Teach Themselves to Use Tools', 2023 3. 'Reflexion: Language Agents with Verbal Reinforcement Learning', 2023 4. 'Interactive Instruction: A Framework for Improving Language Agent Generalization through Experience', 2024 5. 'From Imitation to Reinforcement: Bridging the Gap in Language Agent Training', 2022

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问