Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment

2024年05月28日
  • 简介
    这篇论文探讨了如何在强化学习中从人类反馈中实现大型语言模型(LLMs)与人类价值观的有效对齐,同时防止因此降低通过预训练和监督微调获得的能力。首先,作者发现通过插值RLHF和SFT模型参数可以调整人类偏好和基本能力之间的权衡,从而减少对齐成本但牺牲对齐收益。在此基础上,作者提出了在线合并优化器,将RL策略和SFT模型在RLHF的每个优化步骤中整合起来,以持续调节训练方向。具体来说,作者通过合并梯度和SFT和预训练模型之间的参数差异,有效地将梯度引导向SFT优化方向的奖励最大化方向。作者证明了该优化器适用于不同的LLM系列,例如Qwen和LLaMA,适用于不同大小的模型,适用于不同的RLHF算法,例如DPO和KTO,以及现有的模型合并方法。该优化器在14个基准测试中显著提高了对齐收益,同时减轻了对齐成本,实现了更高的整体性能。
  • 图表
  • 解决问题
    如何在Reinforcement Learning from Human Feedback (RLHF)中,有效地平衡LLMs与人类价值观之间的关系,同时避免对预训练和监督微调能力的降级?
  • 关键思路
    通过插值RLHF和SFT模型参数,调整人类偏好和基本能力之间的权衡,从而在减少对齐税的同时,降低对齐奖励的成本。提出Online Merging Optimizer,将RL策略和SFT模型集成到RLHF的每个优化步骤中,以连续调节训练方向,从而显著提高对齐奖励,减轻对齐税。
  • 其它亮点
    实验表明,该优化器适用于不同的LLM家族、各种模型大小、不同的RLHF算法和现有的模型合并方法。在14个基准测试中,显著提高了整体性能。
  • 相关研究
    最近的相关研究包括《Reinforcement Learning with Human Feedback in Minecraft》、《Deep Reinforcement Learning from Human Preferences》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论