图片

报告主题:通用领域奖励模型的推理时可扩展性研究

报告日期:04月22日(本周二)10:30-11:30

报告要点:
近期研究表明,强化学习作为高效的后训练方法能够显著提升大型模型的性能。其中,奖励建模作为强化学习的核心组件,旨在为模型提供准确的奖励信号。然而,传统奖励建模方法往往依赖人工构建的规则或可验证的标准答案(如数学解答、代码输出等),在更开放的大语言模型任务中则面临以下挑战:
  1. 通用性要求:模型需灵活应对不同类型的输入并生成多样化的奖励信号。

  2. 推理时扩展性:通过增加推理时的计算资源来提升奖励信号质量。
基于此,本文致力于突破现有奖励建模方法的局限,重点探索通用奖励模型在推理时扩展性(Inference-Time Scalability),即在推理时投入更多计算资源以带来更优奖励信号,从而进一步提升大语言模型在各类任务中的整体性能。本文提出了一种可有效提升通用奖励模型推理时扩展性的方法SPCT,并构建了通用奖励模型系列DeepSeek-GRM,其在多个基准测试中均超越现有主流奖励模型,性能在推理阶段表现出更强的可扩展性。尽管当前研究仍有局限性,通用奖励模型有望成为未来大模型强化学习系统中的核心模块,助力基础模型的质量评估与优化。
报告嘉宾:
刘子君,清华大学计算机系博士一年级学生,就读于THUNLP-MT实验室,导师为刘洋教授;目前主要研究领域为大模型群体智能以及可扩展性原理;曾在斯坦福大学、DeepSeek-AI等机构进行访问/实习研究。

图片

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除