Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

简介

通过RLHF将生成模型与人类偏好对齐通常会遭受过度优化的问题，即学习不完美的奖励模型可能会误导生成模型输出不想要的响应。我们通过一种原则性的方法，确定了这个问题的源头是分布偏移和学习人类偏好的不确定性。为了减轻过度优化，我们首先提出了一个理论算法，该算法选择对抗性选择的奖励模型的最佳策略，同时最小化损失的最大似然估计和奖励惩罚项。这里，奖励惩罚项被引入，以防止策略选择具有虚假高代理奖励的动作，从而在部分覆盖样式条件下证明算法的可证明样本效率。从理论到实践，所提出的算法进一步享有一个等价但令人惊讶的易于实现的改进。利用奖励模型和相应最优策略之间的等价性，该算法具有一个简单的目标，结合了：（i）直接优化偏好损失，直接将策略与人类偏好对齐，和（ii）明确模仿具有（适当的）基线分布的策略的监督学习损失。在对齐大型语言模型（LLM）的上下文中，该目标将直接偏好优化（DPO）损失与受监督的微调（SFT）损失融合在一起，以帮助减轻过度优化对不想要的响应，我们将该算法命名为正则化偏好优化（RPO）。对齐LLMs的实验表明，与DPO基线相比，RPO的性能有所提高。我们的工作通过理论保证和实证证据，阐明了优化偏好和SFT在调整LLMs中的相互作用。
图表
解决问题

如何通过RLHF算法来减少过度优化问题，即避免学习到的奖励模型误导生成模型输出不良响应？
关键思路

提出了一种理论算法和实践算法，通过惩罚代理策略选择具有虚假高代理奖励的行为，从而减少奖励模型的最大似然估计损失和奖励惩罚项，从而解决了过度优化问题。
其它亮点

该算法被应用于对齐大型语言模型，通过直接偏好优化和监督微调的组合来缓解对不良响应的过度优化。实验结果表明，该算法的性能优于DPO基线。
相关研究

最近的相关研究包括：Learning from Human Preferences with Supervised Policy Gradients、Preference-based Reinforcement Learning、Inverse Reinforcement Learning with Locally Consistent Reward Functions等。

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

评论