Generative Verifiers: Reward Modeling as Next-Token Prediction

简介

验证器或奖励模型通常用于增强大型语言模型（LLM）的推理性能。常见的方法是Best-of-N方法，其中由LLM生成的N个候选解由验证器排名，选择最佳解决方案。虽然基于LLM的验证器通常被训练为区分性分类器来评分解决方案，但它们并没有利用预训练LLM的文本生成能力。为了克服这个限制，我们提出了使用普遍的下一个令牌预测目标来联合验证和解决方案生成训练验证器的方法。与标准验证器相比，这种生成式验证器（GenRM）可以从LLM的几个优点中受益：它们与指令调整无缝集成，启用思维链推理，并可以利用多数投票的额外推理时间计算以获得更好的验证。我们展示了在算法和小学数学推理任务上使用基于Gemma的验证器时，GenRM优于区分式验证器和LLM作为裁判，显示出在Best-of-N中解决问题的百分比提高了16-64％。此外，我们展示了GenRM在数据集大小，模型容量和推理时间计算方面的良好扩展性。
图表
解决问题

本文旨在提高大型语言模型的推理性能，通过使用生成式验证器来评估模型生成的解决方案，相对于传统的判别式验证器是否能够取得更好的效果？
关键思路

本文提出了一种新的生成式验证器（GenRM）来评估大型语言模型生成的解决方案，通过联合训练验证器和解决方案的下一个标记预测目标来实现。相比于传统的判别式验证器，GenRM可以更好地利用大型语言模型的文本生成能力，进而实现更好的推理性能。
其它亮点

本文的实验结果表明，相比于传统的判别式验证器和LLM-as-a-Judge，使用GenRM的Best-of-N方法可以在算法和小学数学推理任务中取得更好的性能，解决问题的百分比提高了16-64%。此外，本文还展示了GenRM在数据集大小、模型容量和推理时计算等方面的良好可扩展性。
相关研究

最近在这个领域中，也有一些其他研究尝试使用验证器来提高大型语言模型的推理性能。例如，一些研究使用基于规则的验证器或使用强化学习来训练验证器。其中一些研究的论文标题包括：“Improving Language Understanding by Generative Pre-Training”和“Learning to Explain: An Information-Theoretic Perspective on Model Interpretation”。

Generative Verifiers: Reward Modeling as Next-Token Prediction

评论