Cautious Weight Decay

2025年10月14日
  • 简介
    我们提出了谨慎权重衰减(Cautious Weight Decay, CWD),这是一种仅需一行代码、与优化器无关的改进方法,它仅对那些符号与优化器更新方向一致的参数坐标施加权重衰减。与标准的解耦式衰减不同——后者隐式地优化一个带有正则化项或约束的目标函数——CWD 保持原始损失函数不变,并具有双层优化的解释:当接近平稳流形时,CWD 会引发滑动模态行为,从而能够在未修改的目标函数上搜索局部帕累托最优的平稳点。在实际应用中,CWD 可直接替代 AdamW、Lion 和 Muon 等优化器中的原有权重衰减,无需引入新的超参数,也无需额外调参。在语言模型预训练和 ImageNet 图像分类任务中,从百万到十亿参数规模的实验均表明,CWD 能持续改善最终的损失值和准确率。
  • 作者讲解
  • 图表
  • 解决问题
    标准权重衰减(如AdamW中的解耦衰减)会隐式优化一个正则化或约束目标,可能偏离原始损失函数的最优解。本文试图解决如何在不改变原始损失目标的前提下,更谨慎地应用权重衰减,以提升模型泛化性能,尤其是在大规模语言模型和视觉任务中。这是一个相对较新的问题视角,关注优化过程中的动态调节而非静态正则化。
  • 关键思路
    提出谨慎权重衰减(Cautious Weight Decay, CWD),仅对与优化器更新方向符号一致的参数坐标施加权重衰减。这一方法保持原始损失不变,并具有双层优化解释:一旦到达平稳流形,便进入滑动模式,寻找未修改目标的局部Pareto最优平稳点。该思路不同于传统正则化视角,是首个基于符号对齐动态启用权重衰减的 optimizer-agnostic 方法。
  • 其它亮点
    CWD 是一行代码即可集成的通用模块,兼容 AdamW、Lion、Muon 等主流优化器,无需新增超参数或调参。实验覆盖百万至十亿参数规模,在语言模型预训练和 ImageNet 分类任务上均一致提升最终损失与准确率。论文提供了清晰的理论分析(如滑动模式行为)和广泛实证验证。代码已开源,未来可探索其在强化学习、微调、稀疏训练等场景的应用。
  • 相关研究
    1. Decoupled Weight Decay Regularization (ICLR 2019) 2. Adaptive Gradient Methods with Dynamic Bound of Learning Rate (ICLR 2019 - Lion) 3. MuON: Momentum Uncoupled OptimizatioN (2023) 4. Sliding Mode Control in Deep Learning (conceptual overlap) 5. LocoProp: Enhancing Training by Implicit Regularization (NeurIPS 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问