- 简介我们提出了一种使用强化学习微调大型语言模型的新算法。渐退离线策略 REINFORCE(TOPR)采用一种不对称且渐退的重要性采样变体,在无需使用 KL 正则化的情况下,加速学习过程并保持稳定的学习动态。TOPR 可以完全以离线方式应用,能够在统一框架中处理正例和负例,并且得益于蒙特卡洛算法典型的实现简单性。我们通过在 GSM8K 和 MATH 推理基准上的一系列实验展示了我们方法的有效性,发现它在训练解决方案生成模型和生成验证模型时都能提升性能。我们证明,在离线策略场景下充分结合正例和负例可以同时提高测试准确率和训练数据效率,同时避免因丢弃负例而产生的“无效推理”。我们发现这一优势在多次训练迭代中持续存在,并可通过数据集优化技术进一步放大,使我们能够用 8B 参数的语言模型匹配 70B 参数模型的性能。作为这项工作的推论,我们发现 REINFORCE 的基线参数在存在负例的情况下对定义数据集组成起着重要且意外的作用,因此对于驱动离线策略性能至关重要。
- 图表
- 解决问题本论文试图解决如何通过强化学习更高效地微调大型语言模型的问题,特别是如何在离线环境下充分利用正负样本进行训练,以提高测试准确率和数据效率。这是一个重要的问题,因为传统的强化学习方法可能需要大量在线交互数据,而本研究探索了完全离线的解决方案。
- 关键思路论文提出了一种名为Tapered Off-Policy REINFORCE (TOPR) 的新算法,该算法使用不对称、渐减的重要性采样技术,在不依赖KL正则化的情况下实现快速且稳定的强化学习过程。相比现有方法,TOPR能够在统一框架下处理正负样本,并避免因丢弃负样本而导致的‘浪费推理’问题,从而显著提升训练效率和模型性能。
- 其它亮点1. 实验设计基于GSM8K和MATH基准数据集,验证了TOPR在生成解决方案和生成验证器任务中的有效性;2. 提出的方法能够通过多次迭代训练放大优势,甚至使较小规模(8B参数)的语言模型达到与大规模(70B参数)模型相当的性能;3. 研究发现REINFORCE基线参数对数据集构成有重要影响,特别是在存在负样本时,这对优化离线策略性能至关重要;4. 论文强调了数据集策划技术的作用,表明其可以进一步增强模型表现。目前尚无明确提及开源代码的信息,但未来可关注相关工作是否发布代码。
- 近期相关研究包括:1. 'Fine-Tuning Language Models from Human Preferences' 探索了基于人类偏好的语言模型微调方法;2. 'Reward Modeling for Language Model Alignment' 研究了奖励建模在对齐语言模型中的应用;3. 'Offline Reinforcement Learning: Tutorial, Review and Perspectives on Open Problems' 综述了离线强化学习的技术现状及挑战;4. 'Improving Language Models by Reward Extrapolation' 提出了通过奖励外推改进语言模型的方法。这些研究共同构成了当前强化学习微调语言模型领域的知识基础。
沙发等你来抢
去评论
评论
沙发等你来抢