- 简介奖励模型在大型语言模型(LLMs)的对齐、评估和数据构建中变得越来越重要。大多数现有的研究者都专注于通过数据改进增强奖励模型,遵循直接优化预测奖励的奖励模型传统训练框架。本文提出了一个混合对齐框架HaF-RM,用于奖励模型训练,除了奖励分数外,还引入了一个关于标记级策略概率的额外约束。它可以同时监督标记级内部偏好模型,并优化奖励模型的映射层。理论证明和五个数据集上的实验结果表明,我们提出的混合框架对于训练高质量的奖励模型是有效的。通过解耦奖励建模过程并融入混合监督,我们的HaF-RM框架为增强奖励模型的性能和对齐提供了一种原则性和有效的方法,这是强大语言模型负责任开发的关键组成部分。我们在https://haf-rm.github.io发布了我们的代码。
-
- 图表
- 解决问题本论文旨在提高大型语言模型(LLMs)的奖励模型的性能和对齐性,通过引入一个额外的约束条件来训练混合对齐框架HaF-RM,同时监督令牌级策略概率的内部偏好模型,并在序列级别上优化奖励模型的映射层。
- 关键思路HaF-RM框架通过引入令牌级策略概率的约束条件,同时监督内部偏好模型和优化奖励模型的映射层,提高了奖励模型的性能和对齐性。
- 其它亮点论文在五个数据集上进行了实验,并公开了代码。HaF-RM框架提供了一种有效的方法来提高奖励模型的性能和对齐性。
- 最近的相关研究包括《Aligning AI Assistance with Human Values》和《Reward Learning: Past, Present, and Future》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流