Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards

2024年03月12日
  • 简介
    本文介绍了一种名为“对比奖励”的方法,旨在提高奖励模型的有效性,从而改进人类反馈强化学习(RLHF)范式,以使大型语言模型(LLMs)更符合人类偏好。现有的RLHF很大程度上依赖于准确和信息丰富的奖励模型,但这些模型容易受到来自各种来源的噪声的影响,例如人类标注错误,从而使流程变得脆弱。本文的方法包括两个步骤:(1)离线抽样步骤,以获得作为基线计算的提示响应;(2)使用基线响应计算对比奖励,并在近端策略优化(PPO)步骤中使用。我们展示了对比奖励可以使LLM惩罚奖励不确定性,提高鲁棒性,鼓励在基线上改进,根据任务难度进行校准,并减少PPO中的方差。我们通过GPT和人类的评估实验证明,对比奖励可以显著提高RLHF的效果,并且我们的方法始终优于强基线。
  • 图表
  • 解决问题
    本文试图通过引入惩罚项来改善奖励模型的有效性,以解决强化学习从人类反馈中学习的问题。现有的奖励模型对来自各种来源的噪声非常敏感,使得强化学习过程非常脆弱。
  • 关键思路
    本文提出了一种名为“对比奖励”的惩罚项,通过离线采样和对比奖励的计算,使得模型能够惩罚奖励的不确定性,提高鲁棒性,鼓励改进,并根据任务难度进行校准。
  • 其它亮点
    本文的实验结果表明,对比奖励能够显著提高强化学习从人类反馈中学习的效果,并且比强基线表现更好。实验使用了GPTs和人类评估,并且开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Learning from Demonstration with Contrastive Reward Learning”和“Contrastive Learning for Unsupervised Reinforcement Learning”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论