Inference-Time Scaling for Generalist Reward Modeling

2025年04月03日
  • 简介
    强化学习(RL)已在大规模语言模型(LLMs)的后训练阶段得到了广泛应用。近期,通过强化学习激励 LLMs 的推理能力表明,**适当的学习方法能够实现有效的推理时间扩展性**。强化学习的一个关键挑战在于,在超越可验证问题或人工规则的各种领域中,为 LLMs 获取准确的奖励信号。在本研究中,我们探讨了如何通过增加推理计算资源来改进通用查询的奖励建模(RM),即 **通用 RM 的推理时间扩展性**,并进一步研究如何通过适当的学习方法提升性能与计算资源扩展的有效性。对于 RM 方法,我们采用了逐点生成式奖励建模(GRM),以支持不同输入类型并具备推理时间扩展的潜力。对于学习方法,我们提出了自原则性批评调优(SPCT),通过在线强化学习促进 GRMs 中可扩展的奖励生成行为,从而自适应地生成原则并准确评估批评,最终得到 **DeepSeek-GRM** 模型。此外,为了实现有效的推理时间扩展,我们使用并行采样以扩大计算资源的利用,并引入一个元奖励模型(meta RM)来指导投票过程,以提升扩展性能。实证结果表明,SPCT 显著提高了 GRMs 的质量和扩展性,在各种 RM 基准测试中优于现有方法和模型,且无明显偏差,甚至相比训练时间扩展能取得更好的性能。尽管如此,DeepSeek-GRM 在某些任务中仍面临挑战,但我们相信,这些可以通过未来在通用奖励系统方面的努力加以解决。我们将发布并开源这些模型。
  • 图表
  • 解决问题
    论文试图解决如何在大规模语言模型(LLMs)中通过强化学习(RL)提升推理能力的问题,特别是如何构建通用的奖励模型(RM),使其具备推理时间可扩展性。这是一个重要但尚未完全解决的问题,尤其是在生成准确奖励信号以适应各种领域时。
  • 关键思路
    论文提出了一种新的方法——Self-Principled Critique Tuning(SPCT),结合点对点生成式奖励建模(GRM),以在线RL的方式生成原则和批评,从而改进奖励模型的质量与可扩展性。此外,引入了元奖励模型(meta RM)来优化投票过程,进一步提升推理时间的计算效率。相比现有研究,这种方法更注重通用性和推理时间的扩展能力。
  • 其它亮点
    1. 提出了DeepSeek-GRM模型,通过SPCT显著提升了奖励模型的质量和可扩展性;2. 在多个奖励建模基准测试中表现优于现有方法,且无明显偏差;3. 使用并行采样技术扩展计算资源使用,并引入元奖励模型指导投票过程;4. 实验设计全面,涵盖了多种输入类型和任务场景;5. 模型将被开源,为未来研究提供基础;6. 论文指出了当前模型在某些任务中的局限性,并提出了改进建议,值得进一步探索。
  • 相关研究
    最近的相关研究包括:1. 'Fine-Tuning Language Models from Human Preferences',探讨了基于人类反馈的奖励模型训练;2. 'Reward Modeling for Dialogue Systems',专注于对话系统的奖励建模;3. 'Scalable Reward Learning for Large Language Models',研究了奖励学习在大语言模型中的可扩展性问题;4. 'Online Reinforcement Learning for Language Model Alignment',提出了在线强化学习在对齐语言模型中的应用。这些研究共同推动了奖励建模和强化学习在自然语言处理领域的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论