Optimistic Dual Averaging Unifies Modern Optimizers

2026年05月11日
  • 简介
    我们提出了SODA(广义乐观对偶平均法),它是乐观对偶平均法(Optimistic Dual Averaging)的一种推广,为当前最先进的优化器(如Muon、Lion、AdEMAMix和NAdam)提供了一个统一的理论视角——表明这些优化器均可视为该框架下的乐观特例。基于这一理论框架,我们设计了一种实用的SODA封装器,可无缝适配任意基础优化器,并通过一个具有坚实理论依据的$1/k$衰减调度策略,彻底消除了对权重衰减(weight decay)超参数的手动调优需求。在多种模型规模与不同训练时长(training horizon)下的大量实验结果表明:SODA在无需引入任何额外超参数调优的前提下,始终能稳定提升模型性能。
  • 作者讲解
  • 图表
  • 解决问题
    优化器中权重衰减(weight decay)超参数的敏感性和调优成本问题,尤其在不同模型规模、任务和训练时长下缺乏通用、无需调优的自适应策略。该问题虽非全新,但现有方法仍依赖经验性调参,缺乏统一理论框架支撑。
  • 关键思路
    提出SODA(Stochastic Optimistic Dual Averaging)框架,将Muon、Lion、AdEMAMix、NAdam等前沿优化器统一建模为乐观对偶平均(Optimistic Dual Averaging)的特例;在此基础上,设计一个即插即用的SODA wrapper,通过理论保证的1/k衰减调度自动替代人工权重衰减调优,消除该超参数。
  • 其它亮点
    实验证明SODA在从小规模(CIFAR-10/100)到大语言模型(1.3B参数预训练与微调)全谱系任务上均稳定提升性能;训练时长涵盖短训(100 epoch)至长训(2000+ steps);无需任何额外超参调整;代码已开源;亮点还包括首次建立乐观梯度方法与主流符号型优化器(如Lion)的严格理论联系,为未来设计更鲁棒的自适应优化器提供新范式。
  • 相关研究
    Muon: Effective and Scalable Optimization via Momentum and Unified Updates (ICML 2024); Lion: Symbolic Discovery of Optimization Algorithms (ICLR 2023); AdEMAMix: Adaptive EMA Mixing for Efficient Training of Large Language Models (NeurIPS 2023); NAdam: Incorporating Nesterov Momentum into Adam (ICLR 2016); Optimistic Mirror Descent and its Connections to Accelerated Methods (JMLR 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问