- 简介奖励模型是成功的强化学习人类反馈对齐预训练模型的关键,然而有关这些奖励模型评估的研究相对较少。评估奖励模型提供了理解对齐语言模型使用的不透明技术以及其中嵌入的价值观的机会。迄今为止,极少数能力描述、训练方法或开源奖励模型的描述存在。本文介绍了RewardBench,这是一个用于评估的基准数据集和代码库,以增强对奖励模型的科学理解。RewardBench数据集是一个涵盖聊天、推理和安全性的提示-胜利-失败三元组的集合,用于对奖励模型在具有挑战性、结构化和超出分布范围的查询上的表现进行基准测试。我们为具有微妙但可验证原因(例如错误、不正确的事实)的RMs创建了特定的比较数据集,以说明为什么应该优先选择一个答案。在RewardBench排行榜上,我们评估了使用各种方法训练的奖励模型,例如分类器的直接MLE训练和直接偏好优化(DPO)的隐式奖励建模,并在一系列数据集上进行评估。我们提出了许多关于各种奖励模型的拒绝倾向、推理限制和指令遵循缺陷的发现,以更好地理解RLHF过程。
- 图表
- 解决问题评估奖励模型在强化学习人类反馈中的作用,以更好地理解RLHF过程中嵌入其中的价值观和技术。
- 关键思路提出了一个用于评估奖励模型的基准数据集和代码库RewardBench,并对使用各种方法训练的奖励模型在多个数据集上进行了评估,揭示了它们的局限性和倾向性。
- 其它亮点论文提出了一个用于评估奖励模型的基准数据集和代码库RewardBench,包含了聊天、推理和安全等多个方面的数据集;通过对比数据集,评估了使用不同方法训练的奖励模型在不同数据集上的表现,并揭示了它们的局限性和倾向性;实验结果表明,RewardBench可以用于评估奖励模型的性能,并为进一步的研究提供了基础。
- 近期的相关研究包括《Learning to Learn How to Learn: Self-Adaptive Visual Navigation using Meta-Learning》、《Reward Learning from Human Preferences and Demonstrations in Atari》等。
沙发等你来抢
去评论
评论
沙发等你来抢