
报告日期:05月09日(周六) 14:30-15:30
Unsupervised RLVR:https://arxiv.org/abs/2603.08660v1
Rethinking OPD:https://arxiv.org/abs/2604.13016v1
议题详情:
强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问:RL 究竟能 scale 到哪里?
通往可扩展强化学习的路上,有三个绕不开的问题。第一,当社区在"trick 军备竞赛"里越陷越深,RL recipe 真的必须越来越复杂吗?第二,当人工标注的成本指数级增长、模型逼近甚至超越人类专家,无监督 RLVR 能带我们走多远?第三,相比稀疏的结果奖励,On-Policy Distillation 提供的密集 token 级监督看似是"免费的午餐",但这顿午餐,真的没有代价吗?
清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD,分别给出了系统性的回答。
报告嘉宾:

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1800次。

内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢