- 简介强化学习已成为语言模型(LMs)从环境奖励或反馈中进行学习的核心方法。在实际应用中,环境反馈通常稀疏且延迟。从这类信号中学习极具挑战性,因为语言模型必须隐式地推断:如何将所观察到的失败转化为对未来迭代行为的调整。为此,我们提出了“体验式强化学习”(Experiential Reinforcement Learning, ERL)——一种将明确的“体验—反思—固化”循环嵌入强化学习过程的新型训练范式。具体而言,在给定任务下,模型首先生成初始尝试;随后接收环境反馈,并据此生成一段反思性分析;该反思进而指导模型产出经过优化的第二次尝试;而此次改进后尝试的成功结果则被强化,并内化至基础策略之中。这一机制将原始反馈转化为结构化的、可执行的行为修正,不仅提升了探索效率、增强了优化过程的稳定性,而且在部署阶段无需额外推理开销即可保留全部训练收益。在各类稀疏奖励控制任务环境及智能体式推理基准测试中,ERL 始终显著优于强基线强化学习方法:在复杂多步环境中性能提升高达 +81%,在工具调用型推理任务中亦取得最高达 +11% 的增益。上述结果表明,将显式的自我反思机制融入策略训练,为实现反馈向持久性行为改进的有效转化提供了一种切实可行的路径。
-
- 图表
- 解决问题论文试图解决强化学习中环境反馈稀疏且延迟导致语言模型难以将失败信号有效转化为行为改进的问题,即如何在缺乏密集即时奖励的情况下实现高效、稳定的策略优化。这不是全新问题,但针对语言模型在复杂决策任务中的反馈利用效率低下的现象,提出了更具结构化的解决方案。
- 关键思路提出Experiential Reinforcement Learning(ERL)范式,显式引入‘经验–反思–巩固’三阶段闭环:模型先生成初始响应→接收稀疏环境反馈→自动生成结构化反思(解释失败原因并规划修正)→基于反思生成改进版响应→仅对该改进响应进行奖励回传与策略更新。关键新意在于将隐式的梯度驱动修正显式化为可控、可解释、可训练的反思步骤,并确保该反思能力内化于基础策略中,不增加部署开销。
- 其它亮点在多个稀疏奖励控制环境(如ALFWorld、WebShop)和具身推理基准(如ToolAlpaca、CRUX-Eval)上验证,相比PPO、GRPO、ReST等强基线,提升达+81%(多步任务)和+11%(工具调用任务);所有实验均基于开源LM(Llama-3-8B/Phi-3)和标准RLHF流程;反思模块与主干共享参数,无需额外推理延迟;代码已开源;值得深入的方向包括:反思内容的可验证性评估、跨任务反思迁移、以及将ERL与过程监督(process supervision)结合以增强对齐鲁棒性。
- Recent works include: 'ReST: Reward-guided Self-Training for Language Model Alignment' (ICML 2024), 'GRPO: Generalized Reward-Policy Optimization for LLMs' (NeurIPS 2023), 'Reflexion: Language Agents with Verbal Reinforcement Learning' (ICLR 2024), 'Self-Refine: Iterative Refinement with Self-Feedback' (ACL 2023), and 'Process Reward Modeling' (arXiv:2310.17567).
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流