- 简介这篇论文探讨了如何在强化学习中从人类反馈中实现大型语言模型(LLMs)与人类价值观的有效对齐,同时防止因此降低通过预训练和监督微调获得的能力。首先,作者发现通过插值RLHF和SFT模型参数可以调整人类偏好和基本能力之间的权衡,从而减少对齐成本但牺牲对齐收益。在此基础上,作者提出了在线合并优化器,将RL策略和SFT模型在RLHF的每个优化步骤中整合起来,以持续调节训练方向。具体来说,作者通过合并梯度和SFT和预训练模型之间的参数差异,有效地将梯度引导向SFT优化方向的奖励最大化方向。作者证明了该优化器适用于不同的LLM系列,例如Qwen和LLaMA,适用于不同大小的模型,适用于不同的RLHF算法,例如DPO和KTO,以及现有的模型合并方法。该优化器在14个基准测试中显著提高了对齐收益,同时减轻了对齐成本,实现了更高的整体性能。
- 图表
- 解决问题如何在Reinforcement Learning from Human Feedback (RLHF)中,有效地平衡LLMs与人类价值观之间的关系,同时避免对预训练和监督微调能力的降级?
- 关键思路通过插值RLHF和SFT模型参数,调整人类偏好和基本能力之间的权衡,从而在减少对齐税的同时,降低对齐奖励的成本。提出Online Merging Optimizer,将RL策略和SFT模型集成到RLHF的每个优化步骤中,以连续调节训练方向,从而显著提高对齐奖励,减轻对齐税。
- 其它亮点实验表明,该优化器适用于不同的LLM家族、各种模型大小、不同的RLHF算法和现有的模型合并方法。在14个基准测试中,显著提高了整体性能。
- 最近的相关研究包括《Reinforcement Learning with Human Feedback in Minecraft》、《Deep Reinforcement Learning from Human Preferences》等。
沙发等你来抢
去评论
评论
沙发等你来抢