近期,第十四届国际学习表征会议(International Conference on Learning Representations,ICLR 2026)主会录用结果出炉!
ICLR是由深度学习领域奠基人 Yoshua Bengio 与 Yann LeCun 共同发起,自2013年首届举办以来,迅速成长为全球最具影响力的“三大深度学习顶级会议”之一。今年ICLR将于4月23-27日在巴西里约热内卢举行。
本次淘天集团与阿里未来生活实验室累计有十余篇论文收录,研究内容涵盖搜索广告、多模态、视觉推理、强化学习等多个前沿方向。

另外,由阿里妈妈牵头发起、ICLR历史上首个聚焦机制设计(Mechanism Design)与决策智能(Strategic Decision Making)方向的Workshop——“AI for Mechanism Design and Strategic Decision Making”(简称 AIMS Workshop)也进入了征稿倒计时。
鉴于广大研究者高涨的投稿热情,AIMS Workshop 官方宣布将论文投稿截止日期延长至2026年2月3日(AOE时间),以期为更多学者提供参与机会。

(更多详情可戳文末)
接下来为大家介绍本次入选的论文成果,后续会邀请论文作者详细解析论文思路和技术成果,欢迎关注~
作者:Juntong Wu, Jialiang Cheng, Fuyu Lv, OU Dan, Li Yuan
摘要:一种基于专家相似性的MoE激活专家重路由方法,旨在加速MoE模型的批次推理过程。该方法在推理过程中动态、智能地减少激活专家数量:将原本路由至次要专家的 token 重路由至与其最相似的主要专家,同时利用专家间的相似性模式精准识别并保留关键专家。该方法最高可实现2倍的解码加速,同时保持几乎无损的生成质量。
作者:Taihang Hu, Mengting Chen, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
摘要:这篇文章提出了统一多模态框架ORION,旨在解决自回归模型中理解与生成任务的“语义-结构”表征冲突 。通过引入非线性视觉头解耦与表征一致性损失对齐 ,该模型在原生单体架构下有效平衡了语义理解与图像生成能力 。实验显示,ORION在无需特定任务分离参数的情况下,实现了具有竞争力的图像理解和生成性能,验证了单体自回归架构的有效性。
作者:Zhiyu Mou, Yiqin Lv, Miao Xu, Cheems Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng
摘要:本文提出基于强化学习的生成式出价算法 AIGB-Pearl(Planning with EvaluAtor via RL),通过引入轨迹评估器对生成轨迹进行打分,并结合具有理论保障的正则化强化学习方法,有效提升生成质量与泛化能力。该方案已在全站推完成全量上线,带来了显著的线上收益。
论文地址:https://arxiv.org/abs/2509.15927
作者:Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Johan Obando-Ceron, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
摘要:本文针对大语言模型(LLM)推理任务中的强化学习(RL)技术进行了系统性梳理。面对算法机制理解碎片化及实验结论不一致等挑战,ROLL 团队联合多家机构,在统一开源框架下对主流 RL 技术进行了详尽的复现与消融分析。研究揭示了各技术的内部机制与适用场景,并提供了选型指南。最终,文章提出了一种极简的组合方案 Lite PPO,该方案仅需两种技术即可解锁无 Critic 策略的强化学习潜力,性能超越 GRPO 和 DAPO 等主流算法。
论文地址:https://arxiv.org/abs/2508.08221
作者:Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
摘要:GEM团队(多家研究机构,包括ROLL团队)发布了 GEM (General Experience Maker),一个专为大语言模型智能体设计的开源环境模拟器。GEM 仿照经典 OpenAI Gym 模式,为 LLM 提供了标准化的环境交互接口,支持高吞吐异步执行。该平台集成了丰富的环境套件,并针对 GRPO、REINFORCE 等算法进行了深度基准测试。作为 LLM 训练与评估的基础设施,GEM 解决了智能体交互协议不统一的痛点,为开发通用智能体提供了强有力的工具支持。
作者:Jiashun Liu, Johan Obando-Ceron, Han Lu, Yancheng He, Weixun Wang, Wenbo Su, Bo Zheng, Pablo Samuel Castro, Aaron Courville, Ling Pan
摘要:ROLL 团队(联合多家研究机构)提出了 Asymmetric PPO (AsyPPO),一种针对大语言模型推理能力优化的强化学习框架。AsyPPO 重新审视了 Critic 架构的价值,通过引入轻量化的“Mini-critics”解决了传统 PPO 在大模型规模下计算开销大、奖励稀疏导致估计偏差的痛点。该算法利用多 Critic 间的不确定性优化策略更新,显著提升了naive off policy设定下学习稳定性和性能。实验表明,AsyPPO 在数学推理等多项基准测试中优于 GRPO 等主流算法,为构建高效、可扩展的通用智能体推理算法提供了新范式。
作者:Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng
摘要:针对大语言模型处理长文本的低效和冗余挑战,本文提出从粗到细的自适应上下文压缩框架COMI。该框架通过独创的“边际信息增益”(MIG)指标,同时优化信息的相关性与多样性,并指导粗粒度分组分配与细粒度词元融合。在高压缩率下,COMI能高效保留关键信息,实验性能远超现有方法。
作者:Weize Liu, Yongchi Zhao, Yijia Luo, Mingyu Xu, Jiaheng Liu, Yanan Li, Xiguo Hu, Zhiqi Bai, Yuchi Xu, Wenbo Su, Bo Zheng
摘要:针对现有合成数据难度不可控的痛点,该工作提出DESIGNER——LLM 推理数据合成新范式,以“设计逻辑”(Design Logic)引导机制,模拟人类专家“定考点-设场景-埋陷阱”的出题思维。团队逆向提取了 12 万+ 逻辑结构,生成了覆盖 75 个学科的 470 万条高质量推理数据。实验表明,仅使用该数据进行 SFT,Qwen3 和 Llama3 的推理性能即可超越官方最终版本,显著打破了复杂推理数据的合成瓶颈。
论文地址:https://arxiv.org/abs/2508.12726
作者:Jiaang Li, Haibin Chen, Langming Liu, Yujin Yuan, Yadao Wang, Yizhen Zhang, Chengting Yu, Xin Tong, Weidong Zhang, Shilei Liu, Wenbo Su, Bo Zheng
摘要:针对混合专家(MoE)模型存在的专家功能冗余(同质化)问题,本研究提出“专家差异化学习”策略。该方法在预训练中引入辅助损失,利用数据领域标签引导模型为不同领域激活不同的专家,从而促进功能特化。实验证明,此方法以极小的计算开销,有效缓解了专家同质化,并显著提升了模型在语言建模和下游任务中的表现。
作者:Zejun Li, Yingxiu Zhao, Jiwen Zhang, Siyuan Wang, Yang Yao, Runzhou Zhao, Jun Song, Bo Zheng, Zhongyu Wei
摘要:目前的视觉推理方法衍生出了多种思考模式,主要有和 LLM 一致的纯文本思考模式以及更加贴近图片的用图思考。两种推理模式在不同的领域各有所长,但现有的工作聚焦于单个思考模式,无法充分利用两个模式之间的互补性,为此,本文提出了mixture-of-visual-thoughts,一种自适应的推理范式:目标是将不同推理模式整合到一个模型内部并引导其进行自适应的模式选择。为了让模型学习这样的推理范式,研究者引入了一个两阶段的学习框架AdaVaR,通过SFT学习不同的推理模式,并设计了一个专门的AdaGRPO算法来在强化学习设定下引导模型学习如何根据问题选择合适的推理模式。
论文地址:https://arxiv.org/abs/2509.22746
作者:Chengting Yu, Xiaobo Shu, Yadao Wang, Yizhen Zhang, Haoyi Wu, Jiaang Li, Rujiao Long, Ziheng Chen, Yuchi Xu, Wenbo Su, Bo Zheng
摘要:针对 Recursive(Looped)Transformer 存在的“计算趋同”(多轮循环算力浪费在重复计算) 与“信息过载” (单一隐状态空间承载过多信息) 两大瓶颈,我们提出 MeSH(Memory-as-State-Highways)架构:以循环间的显式状态管理为切入点,引入轻量级的读写记忆缓冲区与动态路由机制,促使不同循环形成功能分工,显著增强表征演化能力,从而带来更高的参数效率与更强的模型性能。
论文地址:https://arxiv.org/abs/2510.07739
作者:Congzhi Zhang, Zhibin Wang, Yinchao Ma, Jiawei Peng, Yihan Wang, Qiang Zhou, Jun Song, Bo Zheng
摘要:在数学推理任务中,强化学习能通过“思考”大幅提升模型性能。但将同样的方法用于视频推理,效果却不尽如人意。我们认为,这背后是任务性质的根本差异:数学推理是纯文本空间的逻辑游戏,而视频推理需要模型在视觉内容和文本逻辑之间反复穿梭、验证。简单地套用文本思维链,只会让模型产生更多“脑补”和幻觉。为了解决这一难题,研究团队提出了一个核心观点:模型“思考”的效果,取决于我们是否教会了它“如何思考”。基于此,他们推出了一整套解决方案:一个高质量的视频推理数据集 ReWatch,以及一个能像人类一样“回看”视频进行思考的SOTA模型 ReWatch-R1。
论文地址:https://arxiv.org/abs/2509.23652
作者:Hongzhan Lin, Zhiqi Bai, Xinmiao Zhang, Sen Yang, Xiang Li, Siran Yang, Yunlong Xu, Jiaheng Liu, Yongchi Zhao, Jiamang Wang, Yuchi Xu, Wenbo Su, Bo Zheng
摘要:针对大模型推理中KV Cache带来的内存挑战,本文提出了一种全新的跨层融合架构 FusedKV 及其高效版本 FusedKV-Lite。该方法基于KV缓存信息的非对称分布规律,通过可学习的融合机制,将底层与中层的KV信息重构为顶层缓存。实验表明,该方法在提升模型性能的同时,可将KV Cache内存占用大幅减少50%,显著降低首字生成延迟(TTFT)并提升生成吞吐。此外,FusedKV具备极强的兼容性,能与MLA、MoE、GQA和SWA等主流架构无缝叠加使用,展现出优秀的工程实践价值。
与此同时,由阿里妈妈牵头发起、全球多所顶尖高校联合组织的专题研讨会——“AI for Mechanism Design and Strategic Decision Making”(简称 AIMS Workshop)正式宣布:

作为ICLR历史上首个聚焦机制设计(Mechanism Design)与决策智能(Strategic Decision Making)方向的Workshop,AIMS的设立标志着这一融合经济学、计算机科学与人工智能的交叉领域首次进入ICLR的学术视野,具有开创性意义。
AIMS Workshop接受两类投稿:短论文(最多4页正文)与长论文(最多9页正文),采用双盲评审机制,且为非存档性质,不影响作者后续向其他会议或期刊投稿。优秀工作将获邀进行口头报告,并角逐 Best Paper(长/短文各一)及 Best Poster 奖项。
目前,AIMS Workshop投稿通道已在OpenReview平台开放,截稿时间已更新为2026年2月3日。全球研究者可以通过官方投稿平台提交论文。
投稿链接:https://openreview.net/group?id=ICLR.cc/2026/Workshop/AIMS
网站链接:https://alimama-tech.github.io/aims-2026/
咨询邮箱:aims_iclr2026@alibaba-inc.com
Workshop举办时间:预计2026年4月26日(ICLR 2026会议期间)
现诚邀机器学习、经济学、运筹优化、多智能体系统等领域的学者踊跃参与,共同探索AI如何重塑市场规则、智能体策略与未来人机协同决策体系,推动负责任、高效且公平的智能经济社会基础设施建设。

关注「阿里妈妈技术」,了解更多~

喜欢要“分享”,好看要“点赞”哦ღ~
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢