Self-Generated Critiques Boost Reward Modeling for Language Models

向作者提问

NEW

简介

奖励建模对于使大型语言模型（LLMs）与人类偏好对齐至关重要，尤其是在基于人类反馈的强化学习（RLHF）中。然而，当前的奖励模型主要生成标量分数，在融入自然语言形式的批评意见方面存在困难。我们假设，预测批评意见和标量奖励可以提高奖励建模的能力。基于这一假设，我们提出了Critic-RM框架，该框架通过自动生成的批评意见来改进奖励模型，而无需额外的监督。Critic-RM采用两阶段过程：生成和筛选高质量的批评意见，然后在奖励预测和批评生成上进行联合微调。实验结果表明，与标准奖励模型和LLM评估器相比，Critic-RM在多个基准测试中的奖励建模准确性提高了3.7%-7.3%，展示了强大的性能和数据效率。进一步的研究还验证了生成的批评意见在纠正错误推理步骤方面的有效性，将推理准确性提高了2.5%-3.2%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决当前奖励模型主要生成标量分数，难以处理自然语言形式的批评意见的问题，并验证通过预测批评和标量奖励可以提高奖励建模能力的假设。这是一个在强化学习从人类反馈（RLHF）中较为新颖的研究方向。
关键思路

论文提出了Critic-RM框架，该框架利用自动生成的批评来改进奖励模型，而无需额外的监督。这一方法创新地结合了批评生成与奖励预测的联合微调，提高了模型的数据效率和准确性。
其它亮点

实验结果显示，Critic-RM在多个基准测试中比标准奖励模型和大型语言模型法官提高了3.7%-7.3%的奖励建模准确率。此外，生成的批评在纠正推理错误方面也表现出色，提升了2.5%-3.2%的推理准确性。论文使用了多个公开数据集进行实验，并且提供了开源代码，为后续研究提供了基础。
相关研究

近期在这个领域，相关研究包括《Reinforcement Learning from Human Feedback: A Survey》和《Aligning Language Models to Human Preferences via Reward Modeling》。这些研究探讨了如何通过人类反馈改进语言模型的对齐性，但较少关注自然语言形式的批评。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问