Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

向作者提问

NEW

简介

奖励模型（RMs）对于大型语言模型（LLMs）的训练和推理时间扩展至关重要。然而，现有的奖励模型主要关注人类偏好，忽视了可验证的正确性信号，而这些信号在训练大型语言模型方面展现出巨大的潜力。在本文中，我们提出了代理奖励建模，这是一种将奖励模型与来自不同方面的可验证正确性信号相结合的奖励系统，以提供可靠的奖励。我们通过实证方法实现了一个名为RewardAgent的奖励代理，它结合了人类偏好奖励与两种可验证信号：事实性和指令遵循性，以提供更可靠的奖励。我们在现有的奖励模型基准测试和实际下游任务的推理时间最佳n选一搜索中进行了全面实验。RewardAgent显著优于传统的奖励模型，证明了其有效性。我们进一步使用RewardAgent构建了训练偏好对，并以DPO目标训练了一个大型语言模型，在各种自然语言处理基准测试中取得了比传统奖励模型更优异的性能。我们的代码已公开发布，以促进进一步的研究（https://github.com/THU-KEG/Agentic-Reward-Modeling）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决现有奖励模型主要关注人类偏好而忽视可验证正确性信号的问题。这在训练大型语言模型（LLMs）时可能导致模型的可靠性和准确性不足。虽然这个问题已经被部分研究者注意到，但目前还没有一个系统性的解决方案。
关键思路

论文提出了一种名为‘代理奖励建模’的新方法，通过结合人类偏好奖励与两个可验证的正确性信号（即事实性和指令遵循），构建了一个更可靠的奖励系统。这一思路不仅考虑了人类的主观评价，还加入了客观的正确性评估，从而提高了奖励模型的准确性和可靠性。
其它亮点

1. 论文设计了全面的实验来验证其提出的RewardAgent，在现有的奖励模型基准测试和实际任务中均表现出色。 2. 使用RewardAgent生成的训练偏好对大型语言模型进行训练，显著提升了模型在多个NLP基准测试中的表现。 3. 提供了开源代码，便于其他研究者复现结果并进一步探索该领域。 4. 强调了未来可以继续深入研究的方向，如扩展到更多类型的可验证信号。
相关研究

最近在这个领域中，相关研究包括： - 'Training language models to follow instructions with human feedback' - 'Factuality Evaluation for Abstractive Summarization' - 'Aligning Language Models to Follow Instructions' 这些研究都致力于提高语言模型的性能，特别是通过改进奖励机制来更好地反映人类偏好和事实准确性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问