Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

2024年05月26日
  • 简介
    通过RLHF将生成模型与人类偏好对齐通常会遭受过度优化的问题,即学习不完美的奖励模型可能会误导生成模型输出不想要的响应。我们通过一种原则性的方法,确定了这个问题的源头是分布偏移和学习人类偏好的不确定性。为了减轻过度优化,我们首先提出了一个理论算法,该算法选择对抗性选择的奖励模型的最佳策略,同时最小化损失的最大似然估计和奖励惩罚项。这里,奖励惩罚项被引入,以防止策略选择具有虚假高代理奖励的动作,从而在部分覆盖样式条件下证明算法的可证明样本效率。从理论到实践,所提出的算法进一步享有一个等价但令人惊讶的易于实现的改进。利用奖励模型和相应最优策略之间的等价性,该算法具有一个简单的目标,结合了:(i)直接优化偏好损失,直接将策略与人类偏好对齐,和(ii)明确模仿具有(适当的)基线分布的策略的监督学习损失。在对齐大型语言模型(LLM)的上下文中,该目标将直接偏好优化(DPO)损失与受监督的微调(SFT)损失融合在一起,以帮助减轻过度优化对不想要的响应,我们将该算法命名为正则化偏好优化(RPO)。对齐LLMs的实验表明,与DPO基线相比,RPO的性能有所提高。我们的工作通过理论保证和实证证据,阐明了优化偏好和SFT在调整LLMs中的相互作用。
  • 图表
  • 解决问题
    如何通过RLHF算法来减少过度优化问题,即避免学习到的奖励模型误导生成模型输出不良响应?
  • 关键思路
    提出了一种理论算法和实践算法,通过惩罚代理策略选择具有虚假高代理奖励的行为,从而减少奖励模型的最大似然估计损失和奖励惩罚项,从而解决了过度优化问题。
  • 其它亮点
    该算法被应用于对齐大型语言模型,通过直接偏好优化和监督微调的组合来缓解对不良响应的过度优化。实验结果表明,该算法的性能优于DPO基线。
  • 相关研究
    最近的相关研究包括:Learning from Human Preferences with Supervised Policy Gradients、Preference-based Reinforcement Learning、Inverse Reinforcement Learning with Locally Consistent Reward Functions等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论