
分论坛简介
2024年底以来OpenAI o1和DeepSeek R1标志着大模型实现深度思考的能力跃迁,这归功于大规模强化学习技术的成熟,因此强化学习与深度思考已经成为人工智能的研究热点,具有重要的学术意义与应用价值。本分论坛邀请了奋战在该前沿方向的优秀青年学者,聚焦大模型强化学习与深度思考技术,分享最新的研究成果与实践经验,共同探讨大模型未来发展的趋势。
分论坛主席
刘知远,清华大学计算机系长聘副教授,清华大学人工智能研究院基础模型研究中心副主任。主要研究方向为大语言模型、知识工程与社会计算。已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过6万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,连续四年入选2020-2023年Elsevier中国高被引学者,入选《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。
东昱晓,清华大学计算机系副教授,曾工作于脸书人工智能和微软总部研究院,研究方向为基础大模型、数据挖掘、图机器学习,相关学术成果应用于多个大模型系列产品和系统。入选2024年清华大学“清韵烛光-我最喜爱的教师”,获2022 ACM SIGKDD新星奖。
分论坛讲者&报告简介
报告题目
强化学习驱动的推理模型:密集与模糊奖励探究
报告摘要
推理模型的出现揭示了另一种以探索为中心的规模化趋势,强化学习则是其中的核心技术。尽管强化学习具备严谨的理论体系,但推理模型所引入的泛化维度仍为其带来了巨大的研究空间。本次报告将会介绍报告人近期在强化学习驱动的推理模型的一系列工作,包括密集监督的构建与应用、测试时强化学习等。
讲者简介
丁宁,清华大学电子工程系助理教授。研究方向为人工智能,尤其注重探究通用智能和专业推理能力的理论、算法和系统,并致力于将其应用到创新科学发现中。他在Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等人工智能会议和期刊发表多篇论文,谷歌学术引用量超过7000次,主导的开源成果在GitHub上获得超过25000星标。他曾入选中国科协青年人才托举工程,获ACL最佳系统演示论文奖、世界人工智能大会青年优秀论文奖和云帆奖、中国算力大会最佳学术论文奖、清华大学优秀博士论文、百度奖学金、Stanford全球前2%科学家等荣誉。他最近提出融合密集奖励的强化学习方法PRIME、测试时强化学习TTRL等工作。
报告题目
大模型推理强化学习的熵变机制
报告摘要
策略熵(policy entropy)是衡量策略动作选择不确定性的一种公认指标,在强化学习(RL)中用于引导和促进策略的探索。本报告旨在对大语言模型推理的强化学习中策略熵的机制建立深入系统的理解,包括三个核心研究问题:1) 强化学习过程中策略熵的典型行为是什么?2) 它为什么会有这种行为?3) 我们如何干预以控制熵,从而实现更好的探索-利用权衡?本报告从理论和实验两方面进行分析,首先揭示了强化学习中的熵减现象和熵与下游任务表现的经验定律,随后从理论上得出结论,熵变化是由动作优势(action advantage)和概率之间的协方差驱动的。最后,受此启发,我们提出了两种简单而有效的技术Clip-Cov 和 KL-Cov来控制策略熵,它们分别对具有高协方差的词元进行裁剪和施加KL惩罚。实验表明,这些方法可以鼓励探索,从而帮助策略摆脱熵崩溃并实现更好的下游性能。
讲者简介
崔淦渠,上海人工智能实验室青年科学家。博士毕业于清华大学计算机系,研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超10000次。
报告题目
大模型推理时的知识获取与利用
报告摘要
随着大语言模型智能水平的持续提升,特别是深度推理模式的出现,使其在复杂任务处理能力上取得显著突破。然而,这种能力提升也伴随着过度推理与幻觉问题的加剧,成为大模型从理论探索走向实际应用亟待解决的关键瓶颈。本报告针对大模型在执行知识密集型任务时面临的信息获取与领用能力有限的问题,提出相应的优化框架与调优策略,并详细阐述近期在多模块协作、多轮知识增强等方面的最新研究进展。
讲者简介
闫宇坤,启元实验室智能计算系统中心助理研究员。博士毕业于清华大学脑与智能实验室,曾获北京市未来芯片技术高精尖创新中心优秀博士生荣誉。在人工智能顶级国际会议(ACL、AAAI、ICLR、NeurIPS、COLM、NAACL等)累计发表论文十余篇。主导研发的MiniCPM-Embedding系列稠密检索模型与UltraRAG框架在Github获得超过1600星标,模型累计下载量突破36万次。
报告题目
推理模型的强化学习训练扩展和推理扩展
报告摘要
随着语言模型智能的发展,强化学习(RL)为提升语言模型的复杂推理能力提供了有效途径,尤其是在克服模仿学习局限性、实现有效测试时扩展和自我探索学习方面。本报告将会介绍如何扩展语言模型强化学习过程提升其复杂推理能力和激活其测试时扩展(inference-scaling)能力,以及通过采样鼓励模型探索和获得细粒度监督信号。
讲者简介
侯振宇,清华大学KEG实验室博士生,研究方向是语言模型推理与强化学习,以第一作者或共同一作身份,在ICML、ACL、KDD等国际会议上发表论文十余篇,相关成果应用于开源大模型与系列产品。
报告题目
面向深思考的稀疏注意力架构研究
报告摘要
当前大模型技术发展正在经历从预训练规模法则(Pre-training Scaling Law)向推理时规模法则(Inference-Time Scaling Law)的重要转变。这一转变表明,提升模型性能的路径已不再局限于参数规模的单一维度扩展,而是向着支持更长序列处理能力的方向演进。面向未来,大模型的深度推理能力势必朝着全天候、高复杂度任务处理的方向发展,更深层次的思考往往代表着更长的输出序列。然而,随着序列长度的快速增长,传统注意力机制面临着计算复杂度和存储开销急剧增加的挑战,这已成为制约大模型深思考能力发展的关键瓶颈。本次报告将聚焦于长文本处理场景下的稀疏注意力机制研究,阐述面向深度推理能力构建的稀疏注意力架构设计原则、核心技术挑战以及相应的解决方案。
讲者简介
肖朝军,清华大学自然语言处理实验室博士生,研究方向是高效大模型架构,以第一作者或共同一作身份,在人工智能国际顶级会议上发表论文十余篇,谷歌学术引用近3000次,曾获钱伟长中文信息处理科学技术奖一等奖,腾讯犀牛鸟精英人才计划杰出奖学金等荣誉。
后续我们将继续更新本次学术年会相关信息,敬请持续关注!

点击下方 关注我们

关次本次年会已发布的其他分论坛预告请查看下方合集:


点赞
分享
收藏
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢