Optimistic Dual Averaging Unifies Modern Optimizers

向作者提问

NEW

简介

我们提出了SODA（广义乐观对偶平均法），它是乐观对偶平均法（Optimistic Dual Averaging）的一种推广，为当前最先进的优化器（如Muon、Lion、AdEMAMix和NAdam）提供了一个统一的理论视角——表明这些优化器均可视为该框架下的乐观特例。基于这一理论框架，我们设计了一种实用的SODA封装器，可无缝适配任意基础优化器，并通过一个具有坚实理论依据的$1/k$衰减调度策略，彻底消除了对权重衰减（weight decay）超参数的手动调优需求。在多种模型规模与不同训练时长（training horizon）下的大量实验结果表明：SODA在无需引入任何额外超参数调优的前提下，始终能稳定提升模型性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

优化器中权重衰减（weight decay）超参数的敏感性和调优成本问题，尤其在不同模型规模、任务和训练时长下缺乏通用、无需调优的自适应策略。该问题虽非全新，但现有方法仍依赖经验性调参，缺乏统一理论框架支撑。
关键思路

提出SODA（Stochastic Optimistic Dual Averaging）框架，将Muon、Lion、AdEMAMix、NAdam等前沿优化器统一建模为乐观对偶平均（Optimistic Dual Averaging）的特例；在此基础上，设计一个即插即用的SODA wrapper，通过理论保证的1/k衰减调度自动替代人工权重衰减调优，消除该超参数。
其它亮点

实验证明SODA在从小规模（CIFAR-10/100）到大语言模型（1.3B参数预训练与微调）全谱系任务上均稳定提升性能；训练时长涵盖短训（100 epoch）至长训（2000+ steps）；无需任何额外超参调整；代码已开源；亮点还包括首次建立乐观梯度方法与主流符号型优化器（如Lion）的严格理论联系，为未来设计更鲁棒的自适应优化器提供新范式。
相关研究

Muon: Effective and Scalable Optimization via Momentum and Unified Updates (ICML 2024); Lion: Symbolic Discovery of Optimization Algorithms (ICLR 2023); AdEMAMix: Adaptive EMA Mixing for Efficient Training of Large Language Models (NeurIPS 2023); NAdam: Incorporating Nesterov Momentum into Adam (ICLR 2016); Optimistic Mirror Descent and its Connections to Accelerated Methods (JMLR 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问