【明日直播马上报名】NeurIPS 2025最佳论文，清华大学一作，RLVR真的帮助大模型变“聪明”了吗？

报告主题：NeurIPS 2025 Best Paper Runner-up Award｜可验证奖励强化学习：拓展大语言模型推理的新路径

报告日期：12月16日（周二）10:30-11:30

报告要点：

本期报告将由清华大学乐洋进行分享。

随着大型语言模型(LLMs)在数学、代码等高阶推理任务中表现日益卓越，人们寄希望于强化学习(尤其是基于可验证奖励的RLVR)进一步突破模型的推理能力边界。本次talk将聚焦对当前RLVR范式进行系统性反思，并探讨下一代范式的可能方向。首先，我们将介绍论文Limit-of-RLVR: Does ReinforcementLearning Really Incentivize Reasoning Capacity inLLMs Beyond the Base Model?，其通过系统评测发现:在当前“固定任务分布+结果奖励”的训练范式下，RLVR虽然在评估上表现优异，但很少实质性拓展模型的推理边界，其能力始终受限于base model的覆盖范围。RLVR主要作用体现在提升采样效率而非挖掘新的知识，多个主流RLVR算法在挖掘模型潜能上表现趋同且远未最优。基于此，我们将讨论潜在的原因和可能的范式变革。

相关论文：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

✍️ 共同一作&本期TALK主讲人：乐洋

🏆 论文荣获 NeurIPS 2025 Best Paper Runner-up Award

论文截图

报告嘉宾：

乐洋，清华大学 22 级直博生，师从黄高教授与宋士吉教授，主要研究方向涵盖强化学习、大模型推理、具身智能及世界模型等前沿领域。曾获NeurIPS 2025 Best Paper Runner-up Award、ICML 2025 AI4Math 研讨会最佳论文, 本科生与研究生国家奖学金等荣誉；以第一作者或共同第一作者身份在Nature Machine Intelligence、ICML、NeurIPS、NAACL、TNNLS、AAAI等顶刊顶会发表论文 8 篇。代表性工作包括揭示强化学习在大语言模型推理极限的 “limit-of-rlvr”，以及聚焦物理规律学习的世界模型 “phyworld” 等。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【明日直播马上报名】NeurIPS 2025最佳论文，清华大学一作，RLVR真的帮助大模型变“聪明”了吗？

评论列表

评论