Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards

2024年03月12日
  • 简介
    本文介绍了一种名为人类反馈强化学习(RLHF)的主流范式,用于将大型语言模型(LLMs)与人类偏好对齐。然而,现有的RLHF严重依赖于准确和信息丰富的奖励模型,这些模型容易受到各种来源的噪声干扰,例如人类标记错误,使得流程变得脆弱。在本研究中,我们通过引入一种奖励的惩罚项来提高奖励模型的有效性,称为“对比奖励”。我们的方法包括两个步骤:(1)离线抽样步骤,用于获取作为基线计算的提示响应;(2)使用基线响应计算对比奖励,并在近端策略优化(PPO)步骤中使用。我们展示了对比奖励使LLM能够惩罚奖励不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准,并减少PPO中的方差。我们通过GPTs和人类的评估实验表明,对比奖励可以显著提高RLHF的性能,并且我们的方法始终优于强基线。
  • 图表
  • 解决问题
    提高大型语言模型与人类偏好的一致性,解决现有强化学习从人类反馈中得到的奖励模型容易受到噪声干扰的问题。
  • 关键思路
    通过引入惩罚项,即对比奖励,改进奖励模型的有效性。该方法包括离线采样和对比奖励计算两个步骤,能够提高鲁棒性、鼓励改进、根据任务难度进行校准、减少PPO的方差。
  • 其它亮点
    论文实验表明,对比奖励可以显著提高从人类反馈中得到的奖励模型的有效性,同时也提高了GPTs的性能。论文使用的数据集和开源代码也值得关注。
  • 相关研究
    相关研究包括使用对抗样本来提高大型语言模型的鲁棒性,以及使用不同的奖励函数来改进强化学习的性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论