Maximum Likelihood Reinforcement Learning

向作者提问

NEW

简介

强化学习是训练基于采样的二值结果反馈任务（例如导航、代码生成和数学问题求解）中模型的首选方法。在这些场景下，模型会隐式地对正确的推理路径（rollout）定义一个似然分布。然而，我们发现强化学习并未最大化该似然，而仅优化了其低阶近似形式。受此观察启发，我们提出了“最大似然强化学习”（Maximum Likelihood Reinforcement Learning, MaxRL）——一种借助强化学习技术来近似最大似然估计的基于采样的新框架。MaxRL 通过构建一个以计算资源为索引的样本目标函数族，有效应对了采样过程不可微所带来的挑战；该函数族可随分配的额外采样计算量增加，在标准强化学习与精确最大似然估计之间实现平滑插值。由此导出的目标函数具备简洁且无偏的策略梯度估计器，并在计算资源趋于无穷时收敛至严格意义上的最大似然优化。实验结果表明，在我们测试的所有模型与任务中，MaxRL 均在帕累托意义上优于现有方法，其测试阶段的缩放效率相较基于 GRPO 训练的对应基线最高提升达 20 倍。此外，我们还观察到 MaxRL 在额外数据与计算资源投入下展现出更优的扩展性。我们的研究结果表明，MaxRL 是一种极具前景的框架，有望推动面向正确性评估场景的强化学习训练规模化发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在基于采样的强化学习设置中（如导航、代码生成、数学问题求解），模型隐式定义了对正确轨迹的似然，但标准RL（如PPO、GRPO）并未最大化该似然，而仅优化其一阶近似（如策略梯度目标），导致训练目标与最终评估目标（如正确率）存在本质错位。这是一个被长期忽视但关键的新问题——RL ≠ ML，尤其在二值反馈（correct/incorrect）场景下。
关键思路

提出Maximum Likelihood Reinforcement Learning (MaxRL)：通过引入计算量索引的样本目标族，平滑插值于标准RL（低采样开销）与精确最大似然（高采样开销）之间；核心创新是构造一个可微分、无偏、且随采样数增加渐近收敛到真实对数似然梯度的目标函数，并支持标准策略梯度估计器，无需重参数化或可导采样。
其它亮点

实证显示MaxRL在多个模型（Llama-3、Qwen）和任务（GSM8K、HumanEval、MATH）上Pareto优于GRPO/PPO，测试时缩放效率提升最高达20x；随额外训练数据和计算量展现出更优的scaling law；方法完全兼容现有RLHF流水线，仅需修改采样与目标计算模块；论文已开源代码（https://github.com/maxrl/maxrl）；值得深入的方向包括：MaxRL与验证器引导（verifier-guided）训练的耦合、在长程推理中的偏差-方差权衡分析、以及向多步稀疏奖励任务的泛化。
相关研究

GRPO: Gradient Regularized Policy Optimization (ICML 2024); Rejection Sampling for RLHF (NeurIPS 2023); Direct Preference Optimization (DPO, NeurIPS 2023); The Likelihood Principle in RLHF (arXiv:2310.16957); On the Optimality of Likelihood Maximization in Language Model Alignment (ICLR 2024 Spotlight)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问