Inference-Time Scaling for Generalist Reward Modeling

2025年04月03日
  • 简介
    强化学习(RL)已经在大规模语言模型(LLMs)的后训练阶段得到了广泛应用。近期,通过强化学习激励 LLMs 推理能力的研究表明,**适当的学习方法能够实现推理时间的有效扩展性**。然而,强化学习面临的一个关键挑战是,在超越可验证问题或人工规则的各个领域中,为 LLMs 获取准确的奖励信号。在本研究中,我们探讨了如何通过增加推理计算资源来改进奖励建模(RM),以应对通用查询的需求,即 **通用 RM 的推理时间扩展性**,以及如何通过适当的学习方法进一步提升性能与计算资源扩展的有效性。 在 RM 方法方面,我们采用了逐点生成式奖励建模(GRM),以支持不同输入类型的灵活性,并具备推理时间扩展的潜力。在学习方法上,我们提出了自原则化批评调优(SPCT),通过在线强化学习促进 GRMs 中可扩展的奖励生成行为,从而实现原则的自适应生成和批评的精确评估,最终构建出 **DeepSeek-GRM** 模型。此外,为了实现高效的推理时间扩展,我们使用并行采样来扩大计算资源的使用,并引入一个元奖励模型(meta RM)来指导投票过程,从而提升扩展性能。 实证结果表明,SPCT 显著提高了 GRMs 的质量和扩展性,在各种 RM 基准测试中超越了现有方法和模型,且无明显偏差,同时其性能优于训练时间扩展的结果。尽管如此,DeepSeek-GRM 在某些任务中仍面临挑战,我们认为这些可以通过未来在通用奖励系统方面的努力得以解决。所有模型将被发布并开源。
  • 图表
  • 解决问题
    该论文试图解决强化学习中奖励建模(RM)在大规模语言模型(LLMs)中的准确性和可扩展性问题,特别是在处理通用查询时。这是一个重要但尚未完全解决的问题,尤其是在如何实现推理时间的可扩展性方面。
  • 关键思路
    论文提出了一种新的方法——Self-Principled Critique Tuning(SPCT),结合点对点生成式奖励建模(GRM)来提升奖励建模的质量和可扩展性。通过在线强化学习自适应生成原则和准确评估,这种方法能够更好地适应不同输入类型,并利用更多的推理计算资源来提高性能。相比现有方法,SPCT更注重推理时间的可扩展性和计算资源的有效利用。
  • 其它亮点
    1. 提出了DeepSeek-GRM模型,通过SPCT显著提升了奖励建模的质量和可扩展性;2. 使用并行采样和元奖励建模来优化推理时间的性能;3. 在多个奖励建模基准测试中表现优于现有方法,且无明显偏差;4. 模型将被开源,为未来研究提供基础;5. 实验设计包括对比训练时间和推理时间的扩展效率,验证了SPCT的优势。
  • 相关研究
    相关研究包括:1.《Fine-Tuning Language Models from Human Preferences》探讨了基于人类偏好的奖励信号优化;2.《Reward Modeling for Dialogue Systems》研究了对话系统中的奖励建模技术;3.《Scalable Reward Learning for Large Language Models》提出了针对LLMs的可扩展奖励学习框架;4.《Online Reinforcement Learning for Reward Shaping》讨论了在线强化学习在奖励塑形中的应用。这些研究共同推动了奖励建模在LLMs中的发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论