2026智源大会议程公开丨强化学习论坛

智源大会是人工智能领域最具影响力的学术盛会，7年来，14位图灵奖得主与全球AI先锋齐聚，成为AI内行人的年度思想坐标。

2026年6月12日-13日，第8届智源大会如期而至。大会坚持“学术硬核”，汇聚200余位顶尖专家学者与40余位AI企业CEO及联合创始人，共同探讨Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题，期待与全球AI同行相聚北京，共同定义下一代智能未来。

强化学习论坛丨6月13日下午

随着人工智能系统从离线训练走向开放环境中的交互学习与持续优化，强化学习在反馈利用、自主决策和长期适应方面的重要性日益凸显。本论坛将围绕强化学习的前沿理论、算法创新、系统效率与应用实践展开研讨，重点关注其在通用智能体与具身智能等方向中的发展。一方面，面向通用智能体，强化学习正与大模型技术深度结合，支撑能力提升、偏好对齐、任务规划与自主决策，推动智能系统持续演进。另一方面，面向具身智能，强化学习连接感知、行动与环境反馈，支撑机器人在仿真和真实环境中交互学习与能力进化。论坛将共同探讨强化学习赋能下一代智能系统的技术路径与未来趋势。

扫码报名参会

2026北京智源大会倒计时：24 天

论坛主席&主持人

俞扬，南京大学人工智能学院教授

俞扬，南京大学人工智能学院教授。主要从事人工智能、机器学习、强化学习方向的研究，工作获5项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE Intelligent Systems “AI’s 10 to Watch”，获CCF-IEEE青年科学家奖，首届亚太数据挖掘“青年成就奖”，并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。

于超，清华大学深圳国际研究生院助理教授

于超，现为清华大学深圳国际研究生院助理教授，入选中国电子学会青年人才托举工程。长期从事基于强化学习的决策智能研究。以第一作者或通讯作者在ICML、NeurIPS、ICLR、CVPR、ECCV、CoRL、IROS、ICRA、TMLR、RAL等国际高水平会议与期刊发表论文50余篇，谷歌学术引用超过5500次。代表性成果包括多智能体强化学习算法MAPPO（谷歌学术引用超2800次）、以及面向具身智能的大规模强化学习训练框架RLinf（GitHub Star超2600）。

演讲主题及嘉宾介绍

（按照发言先后顺序）

1. 面向具身智能的高灵活大规模强化学习框架RLinf

于超，清华大学深圳国际研究生院助理教授

于超，现为清华大学深圳国际研究生院助理教授，入选中国电子学会青年人才托举工程。

2. 面向下一代通用智能体：个性化、主动式与可持续演进

刘卫文，上海交通大学副教授

刘卫文，现任上海交通大学计算机学院副教授，博士生导师，曾任华为诺亚方舟主任研究员。2020年博士毕业于香港中文大学。主要研究方向包括大模型智能体、大语言模型、信息检索。已在国际顶级会议和期刊发表论文80余篇，研究成果产出专利12项，ESI高被引论文1篇，并荣获DLP-RecSys最佳论文奖、十大垂直领域大模型特等奖、华为2012总裁个人奖、创新先锋奖等奖项。所开发的ToolACE系列开源模型在大模型工具调用国际权威榜单BFCL中同量级排名第一，HuggingFace下载量突破60万，全球领先。长期担任ICLR、ICML、KDD等会议及期刊领域主席或审稿人。

3. 面向具身基础模型的可扩展强化学习后训练

李浩然，中国科学院自动化研究所副研究员

李浩然，中国科学院自动化研究所副研究员，硕士研究生导师，智源青年学者。主要研究方向为深度强化学习及其在具身系统中的应用，在IEEE TNNLS/TCYB/TSMCS等国际期刊和NeurIPS，ICLR，RSS，CVPR，ICRA，CoRL等国际会议上发表论文50余篇，承担和参与了国家自然科学基金青年项目、国家自然科学基金重大项目子课题、以及国家自然科学基金重点项目。在国内外多个机器人赛事中获得5项冠军、3项一等奖，获得北京市科学技术奖自然科学二等奖。

4. 大模型强化学习的算力经济学

李子牛，香港中文大学博士

李子牛，香港中文大学博士，指导老师为罗智泉教授。他的研究聚焦于大规模强化学习训练的效率与稳定性，已在 ICML、NeurIPS 等顶尖机器学习会议，以及 TPAMI、JASA 等期刊发表论文 20 余篇。此外，他的研究曾获得 NeurIPS FITML Workshop 最佳论文亚军、NeurIPS Spotlight、ICLR Oral 等认可，并在字节跳动、腾讯等工业界场景中落地应用。

5. AReaL: Towards the Next-Generation Agentic RL Framework

徐树声，蚂蚁集团高级算法专家 & AReaL 项目算法负责人

徐树声，蚂蚁集团高级算法专家，AReaL 开源强化学习框架算法负责人。主导设计了 AReaL 的全异步 RL 训练架构，相比同步方案实现 2.77 倍训练加速；基于该框架已成功训练万亿参数级别的 Agent 模型，达到业界一流水平。项目开源以来获得 GitHub 5000+ Star。此前毕业于清华大学交叉信息研究院（博士）和电子工程系（本科），专注于大语言模型与强化学习研究，在 ICML、ICLR、NeurIPS、EMNLP 等国际顶级学术会议上发表论文十余篇，其中关于大模型 RLHF 的研究以第一作者身份被 ICML 2024 收录为 Oral 论文。本次演讲将分享 AReaL 在 Agentic RL 训练上的系统设计与实践经验。

圆桌讨论｜强化学习前沿进展

圆桌嘉宾：

刘卫文丨上海交通大学副教授

李浩然丨中国科学院自动化研究所副研究员

李子牛丨香港中文大学博士

徐树声丨蚂蚁集团高级算法专家 & AReaL 项目算法负责人

主持人丨于超丨清华大学深圳国际研究生院助理教授

即刻扫码注册，参与大会报名

本届大会采用线下与线上模式融合，报名通道已开启，欢迎扫码免费注册。由于线下席位有限，请尽早完成注册，组委会将根据注册次序审核，并在会前发送审核结果通知。

大会官网 https://2026.baai.ac.cn

本文版权归智源社区所有

内容中包含的图片若涉及版权问题，请及时与我们联系删除

2026智源大会议程公开丨强化学习论坛

评论列表

评论