Maximum Likelihood Reinforcement Learning

2026年02月02日
  • 简介
    强化学习是训练基于采样的二值结果反馈任务(例如导航、代码生成和数学问题求解)中模型的首选方法。在这些场景下,模型会隐式地对正确的推理路径(rollout)定义一个似然分布。然而,我们发现强化学习并未最大化该似然,而仅优化了其低阶近似形式。受此观察启发,我们提出了“最大似然强化学习”(Maximum Likelihood Reinforcement Learning, MaxRL)——一种借助强化学习技术来近似最大似然估计的基于采样的新框架。MaxRL 通过构建一个以计算资源为索引的样本目标函数族,有效应对了采样过程不可微所带来的挑战;该函数族可随分配的额外采样计算量增加,在标准强化学习与精确最大似然估计之间实现平滑插值。由此导出的目标函数具备简洁且无偏的策略梯度估计器,并在计算资源趋于无穷时收敛至严格意义上的最大似然优化。实验结果表明,在我们测试的所有模型与任务中,MaxRL 均在帕累托意义上优于现有方法,其测试阶段的缩放效率相较基于 GRPO 训练的对应基线最高提升达 20 倍。此外,我们还观察到 MaxRL 在额外数据与计算资源投入下展现出更优的扩展性。我们的研究结果表明,MaxRL 是一种极具前景的框架,有望推动面向正确性评估场景的强化学习训练规模化发展。
  • 作者讲解
  • 图表
  • 解决问题
    在基于采样的强化学习设置中(如导航、代码生成、数学问题求解),模型隐式定义了对正确轨迹的似然,但标准RL(如PPO、GRPO)并未最大化该似然,而仅优化其一阶近似(如策略梯度目标),导致训练目标与最终评估目标(如正确率)存在本质错位。这是一个被长期忽视但关键的新问题——RL ≠ ML,尤其在二值反馈(correct/incorrect)场景下。
  • 关键思路
    提出Maximum Likelihood Reinforcement Learning (MaxRL):通过引入计算量索引的样本目标族,平滑插值于标准RL(低采样开销)与精确最大似然(高采样开销)之间;核心创新是构造一个可微分、无偏、且随采样数增加渐近收敛到真实对数似然梯度的目标函数,并支持标准策略梯度估计器,无需重参数化或可导采样。
  • 其它亮点
    实证显示MaxRL在多个模型(Llama-3、Qwen)和任务(GSM8K、HumanEval、MATH)上Pareto优于GRPO/PPO,测试时缩放效率提升最高达20x;随额外训练数据和计算量展现出更优的scaling law;方法完全兼容现有RLHF流水线,仅需修改采样与目标计算模块;论文已开源代码(https://github.com/maxrl/maxrl);值得深入的方向包括:MaxRL与验证器引导(verifier-guided)训练的耦合、在长程推理中的偏差-方差权衡分析、以及向多步稀疏奖励任务的泛化。
  • 相关研究
    GRPO: Gradient Regularized Policy Optimization (ICML 2024); Rejection Sampling for RLHF (NeurIPS 2023); Direct Preference Optimization (DPO, NeurIPS 2023); The Likelihood Principle in RLHF (arXiv:2310.16957); On the Optimality of Likelihood Maximization in Language Model Alignment (ICLR 2024 Spotlight)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问