RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

2026年02月02日
  • 简介
    我们提出了 RLAnything,这是一种强化学习框架,能够通过闭环优化动态构建环境模型、策略模型与奖励模型,从而增强学习信号,并全面提升面向任意大语言模型(LLM)或智能体(agentic)场景的强化学习系统性能。具体而言,策略模型在训练过程中同时融合了逐步反馈(step-wise feedback)与最终结果反馈(outcome feedback);而奖励模型则通过一致性反馈(consistency feedback)进行联合优化,该优化过程又进一步反向提升策略训练效果。此外,受理论启发的自动环境自适应机制,利用批评模型(critic)分别对奖励模型和策略模型输出的反馈,动态调整环境设置,从而支持模型从交互经验中持续学习。实验结果表明,所引入的每一项组件均能稳定提升整体系统性能;RLAnything 在多个典型的大语言模型与智能体任务上均取得显著增益:在 OSWorld 任务中,Qwen3-VL-8B-Thinking 的性能提升达 9.1%;在 AlfWorld 和 LiveBench 任务中,Qwen2.5-7B-Instruct 分别提升 18.7% 和 11.9%。我们还发现,经优化所得的奖励模型信号,其效果优于依赖人工标注的结果评判方式。代码开源地址:https://github.com/Gen-Verse/Open-AgentRL
  • 作者讲解
  • 图表
  • 解决问题
    传统RL for LLM(如PPO、GRPO)依赖静态环境、人工设计奖励函数和固定策略架构,导致信号稀疏、反馈延迟、环境-政策-奖励三者脱节,难以在复杂具身代理(agentic)任务中实现稳健优化。论文旨在解决‘如何构建一个自适应、闭环协同演化的RL系统,使环境建模、策略学习与奖励建模在训练过程中动态互促’这一尚未被系统性解决的新问题。
  • 关键思路
    提出RLAnything框架,核心是‘三模型闭环联合优化’:1)策略模型同时接收step-wise(动作级)和outcome(终局级)双重反馈;2)奖励模型通过一致性反馈(consistency feedback)与策略协同更新,避免对人类标注的强依赖;3)理论驱动的自动环境适配机制,利用critic反馈动态调整环境抽象粒度与观测空间,实现‘从经验中学习如何更好地定义学习问题’——这是首次将环境建模纳入RL训练内循环,突破了RL中环境通常被视为不可控外部黑箱的范式。
  • 其它亮点
    实验覆盖OSWorld(操作系统交互)、AlfWorld(文本具身推理)、LiveBench(实时开放世界评估)三大挑战性代理基准;主模型为Qwen系列开源LLM(非闭源黑盒),提升显著(+9.1% ~ +18.7%);关键发现:自动优化的奖励信号在多项任务上超越人类标注结果,验证了‘可学习的奖励比人类直觉更可靠’的假设;代码完全开源(GitHub: Gen-Verse/Open-AgentRL),支持复现与扩展;值得深挖的方向包括:环境适配的理论收敛性证明、跨任务迁移的环境元策略、以及一致性反馈在多智能体场景的泛化。
  • 相关研究
    GRPO (2023), PPO-LLM (2023), DPO (2024), ORPO (2024), Agent-RL (ICLR'24), Self-Rewarding Language Models (NeurIPS'23), Critic Models as Reward Shapers (ACL'24)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问