Effective Reinforcement Learning for Reasoning in Language Models

简介

强化学习（RL）已作为一种有前景的策略，用于提升语言模型（LM）在数学和编程等领域的推理能力。然而，大多数现代RL算法最初是为机器人应用设计的，这与语言模型的推理任务存在显著差异。我们针对语言模型推理，分析了RL算法的设计选择，同时考虑准确性和计算效率，并由于计算限制，重点关注相对较小的模型。我们的研究发现如下：（i）基于策略的RL显著优于监督微调（SFT），（ii）基于PPO的离策略更新能够提高准确性而非单纯减少方差，（iii）移除KL散度可以生成更简洁的结果并提高准确性。此外，我们发现计算效率的一个关键瓶颈在于推理和反向传播的最佳批量大小不同。为此，我们提出了一种新算法DASH，该算法通过预先采样（即采样一个大批次并以小增量积累梯度更新）和梯度过滤（即丢弃优势估计值较小的样本）来优化训练过程。我们证明，与标准实现的GRPO相比，DASH可以在不牺牲准确性的情况下将训练时间减少83%。我们的研究结果为设计有效的语言模型推理强化学习算法提供了宝贵的见解。
图表
解决问题

该论文试图解决如何通过强化学习（RL）有效提升语言模型（LM）在数学和编程等推理任务中的表现，同时优化计算效率。这是一个相对较新的问题，特别是针对小规模模型的RL算法设计。
关键思路

论文提出了一种名为DASH的新算法，其核心思路是通过预先采样（preemptive sampling）和梯度过滤（gradient filtering）来减少训练时间，而不牺牲准确性。此外，研究发现移除KL散度可以提高生成的简洁性和准确性，并且PPO的离策略更新有助于提升准确率而非单纯降低方差。这些发现与传统RL方法的设计理念有所不同。
其它亮点

实验设计包括对比不同RL方法（如on-policy RL、PPO离策略更新）与监督微调（SFT），并测试了去除KL散度的影响。研究使用了较小规模的语言模型以适应计算限制，并展示了DASH算法相比标准GRPO实现可减少83%的训练时间。虽然未明确提及数据集或代码开源情况，但未来值得探索的方向包括将DASH扩展到更大规模模型以及更多推理任务上。
相关研究

相关研究包括：1) 'Deep Reinforcement Learning from Human Preferences'，探讨了如何通过人类反馈改进RL；2) 'Proximal Policy Optimization Algorithms'，提出了PPO算法的基础理论；3) 'Fine-Tuning Language Models from Human Feedback'，研究了结合人类反馈对LM进行微调的方法；4) 'Reinforcement Learning for Code Generation'，专注于使用RL优化代码生成任务。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论