今日直播｜NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

报告主题：NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

报告日期：05月09日（周六） 14:30-15:30

报告要点：

强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板，但核心问题始终是：RL 的 Scaling 边界究竟在哪里？智源Talk 358期邀请了清华大学何秉翔线上分享，围绕三条核心边界展开：Recipe 复杂度是否必然指数增长？无监督 RLVR 在模型超越人类专家后还能走多远？On-Policy Distillation 的密集 token 级监督是否存在隐性代价？清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答，为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。

论文地址：

JustRL：https://arxiv.org/abs/2512.16649v1

Unsupervised RLVR：https://arxiv.org/abs/2603.08660v1

Rethinking OPD：https://arxiv.org/abs/2604.13016v1

议题详情：

强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问：RL 究竟能 scale 到哪里？

通往可扩展强化学习的路上，有三个绕不开的问题。第一，当社区在"trick 军备竞赛"里越陷越深，RL recipe 真的必须越来越复杂吗？第二，当人工标注的成本指数级增长、模型逼近甚至超越人类专家，无监督 RLVR 能带我们走多远？第三，相比稀疏的结果奖励，On-Policy Distillation 提供的密集 token 级监督看似是"免费的午餐"，但这顿午餐，真的没有代价吗？

清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD，分别给出了系统性的回答。

报告嘉宾：

何秉翔，清华大学博士生，导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习，曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文，谷歌学术引用量超1800次。

电脑端观看地址

更多热门活动：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

今日直播｜NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

评论列表

评论