Secrets of RLHF in Large Language Models Part II: Reward Modeling

2024年01月11日
  • 简介
    强化学习从人类反馈中学习(RLHF)已成为将语言模型与人类价值和意图对齐的关键技术,使模型能够产生更有帮助和无害的响应。奖励模型被训练成人类偏好的代理,以推动强化学习优化。虽然奖励模型通常被认为是实现高性能的关键,但在实际应用中,它们面临以下挑战:(1)数据集中不正确和模糊的偏好对可能会阻碍奖励模型准确捕捉人类意图。 (2)从特定分布的数据中训练的奖励模型通常难以推广到该分布之外的示例,并且不适合迭代RLHF训练。在本报告中,我们试图解决这两个问题。从数据角度来看,我们提出了一种基于多个奖励模型的投票机制来衡量数据中偏好的强度的方法。实验结果证实,具有不同偏好强度的数据对奖励模型性能有不同的影响。我们引入了一系列新方法来减轻数据集中不正确和模糊偏好的影响,并充分利用高质量的偏好数据。从算法的角度来看,我们引入对比学习来增强奖励模型区分选择和拒绝响应的能力,从而提高模型的泛化能力。此外,我们采用元学习使奖励模型保持区分样本中微妙差异的能力,并且这种方法可以用于迭代RLHF优化。
  • 图表
  • 解决问题
    本论文试图解决RLHF中奖励模型面临的两个挑战:数据集中不正确和模糊的偏好对模型性能的影响,以及训练在特定分布上的奖励模型难以推广到分布之外的示例并不适合迭代RLHF训练的问题。
  • 关键思路
    该论文提出了一种基于多个奖励模型的投票机制来衡量数据中偏好的强度,并提出了一系列新方法来减轻数据集中不正确和模糊偏好的影响。此外,该论文引入了对比学习来增强奖励模型区分选定和拒绝响应的能力,从而提高模型的泛化性能。还采用元学习使奖励模型能够保持区分超出分布的样本中微妙差异的能力,该方法可用于迭代RLHF优化。
  • 其它亮点
    该论文通过实验验证了数据集中偏好强度对奖励模型性能的不同影响,并提出了一系列新方法来减轻数据集中不正确和模糊偏好的影响。引入对比学习和元学习来提高模型的泛化性能,同时提高了奖励模型区分超出分布的样本中微妙差异的能力。该论文的实验使用了不同的数据集,并且提供了开源代码。
  • 相关研究
    近期的相关研究包括:(1)《Learning from Human Preferences》(2)《Reinforcement Learning with Human Preferences: Likelihood-based Methods and Their Limits》(3)《Preference-based Reinforcement Learning: A Comprehensive Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论