- 简介通过RLHF将生成模型与人类偏好对齐通常会遭受过度优化的问题,即学习不完美的奖励模型可能会误导生成模型输出不想要的响应。我们通过一种原则性的方法,确定了这个问题的源头是分布偏移和学习人类偏好的不确定性。为了减轻过度优化,我们首先提出了一个理论算法,该算法选择对抗性选择的奖励模型的最佳策略,同时最小化损失的最大似然估计和奖励惩罚项。这里,奖励惩罚项被引入,以防止策略选择具有虚假高代理奖励的动作,从而在部分覆盖样式条件下证明算法的可证明样本效率。从理论到实践,所提出的算法进一步享有一个等价但令人惊讶的易于实现的改进。利用奖励模型和相应最优策略之间的等价性,该算法具有一个简单的目标,结合了:(i)直接优化偏好损失,直接将策略与人类偏好对齐,和(ii)明确模仿具有(适当的)基线分布的策略的监督学习损失。在对齐大型语言模型(LLM)的上下文中,该目标将直接偏好优化(DPO)损失与受监督的微调(SFT)损失融合在一起,以帮助减轻过度优化对不想要的响应,我们将该算法命名为正则化偏好优化(RPO)。对齐LLMs的实验表明,与DPO基线相比,RPO的性能有所提高。我们的工作通过理论保证和实证证据,阐明了优化偏好和SFT在调整LLMs中的相互作用。
- 图表
- 解决问题如何通过RLHF算法来减少过度优化问题,即避免学习到的奖励模型误导生成模型输出不良响应?
- 关键思路提出了一种理论算法和实践算法,通过惩罚代理策略选择具有虚假高代理奖励的行为,从而减少奖励模型的最大似然估计损失和奖励惩罚项,从而解决了过度优化问题。
- 其它亮点该算法被应用于对齐大型语言模型,通过直接偏好优化和监督微调的组合来缓解对不良响应的过度优化。实验结果表明,该算法的性能优于DPO基线。
- 最近的相关研究包括:Learning from Human Preferences with Supervised Policy Gradients、Preference-based Reinforcement Learning、Inverse Reinforcement Learning with Locally Consistent Reward Functions等。
沙发等你来抢
去评论
评论
沙发等你来抢