HAF-RM: A Hybrid Alignment Framework for Reward Model Training

2024年07月04日
  • 简介
    奖励模型在大型语言模型(LLMs)的对齐、评估和数据构建中变得越来越重要。大多数现有的研究者都专注于通过数据改进增强奖励模型,遵循直接优化预测奖励的奖励模型传统训练框架。本文提出了一个混合对齐框架HaF-RM,用于奖励模型训练,除了奖励分数外,还引入了一个关于标记级策略概率的额外约束。它可以同时监督标记级内部偏好模型,并优化奖励模型的映射层。理论证明和五个数据集上的实验结果表明,我们提出的混合框架对于训练高质量的奖励模型是有效的。通过解耦奖励建模过程并融入混合监督,我们的HaF-RM框架为增强奖励模型的性能和对齐提供了一种原则性和有效的方法,这是强大语言模型负责任开发的关键组成部分。我们在https://haf-rm.github.io发布了我们的代码。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提高大型语言模型(LLMs)的奖励模型的性能和对齐性,通过引入一个额外的约束条件来训练混合对齐框架HaF-RM,同时监督令牌级策略概率的内部偏好模型,并在序列级别上优化奖励模型的映射层。
  • 关键思路
    HaF-RM框架通过引入令牌级策略概率的约束条件,同时监督内部偏好模型和优化奖励模型的映射层,提高了奖励模型的性能和对齐性。
  • 其它亮点
    论文在五个数据集上进行了实验,并公开了代码。HaF-RM框架提供了一种有效的方法来提高奖励模型的性能和对齐性。
  • 相关研究
    最近的相关研究包括《Aligning AI Assistance with Human Values》和《Reward Learning: Past, Present, and Future》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问