Cautious Weight Decay - 智源社区论文

向作者提问

NEW

简介

我们提出了谨慎权重衰减（Cautious Weight Decay, CWD），这是一种仅需一行代码、与优化器无关的改进方法，它仅对那些符号与优化器更新方向一致的参数坐标施加权重衰减。与标准的解耦式衰减不同——后者隐式地优化一个带有正则化项或约束的目标函数——CWD 保持原始损失函数不变，并具有双层优化的解释：当接近平稳流形时，CWD 会引发滑动模态行为，从而能够在未修改的目标函数上搜索局部帕累托最优的平稳点。在实际应用中，CWD 可直接替代 AdamW、Lion 和 Muon 等优化器中的原有权重衰减，无需引入新的超参数，也无需额外调参。在语言模型预训练和 ImageNet 图像分类任务中，从百万到十亿参数规模的实验均表明，CWD 能持续改善最终的损失值和准确率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

标准权重衰减（如AdamW中的解耦衰减）会隐式优化一个正则化或约束目标，可能偏离原始损失函数的最优解。本文试图解决如何在不改变原始损失目标的前提下，更谨慎地应用权重衰减，以提升模型泛化性能，尤其是在大规模语言模型和视觉任务中。这是一个相对较新的问题视角，关注优化过程中的动态调节而非静态正则化。
关键思路

提出谨慎权重衰减（Cautious Weight Decay, CWD），仅对与优化器更新方向符号一致的参数坐标施加权重衰减。这一方法保持原始损失不变，并具有双层优化解释：一旦到达平稳流形，便进入滑动模式，寻找未修改目标的局部Pareto最优平稳点。该思路不同于传统正则化视角，是首个基于符号对齐动态启用权重衰减的 optimizer-agnostic 方法。
其它亮点

CWD 是一行代码即可集成的通用模块，兼容 AdamW、Lion、Muon 等主流优化器，无需新增超参数或调参。实验覆盖百万至十亿参数规模，在语言模型预训练和 ImageNet 分类任务上均一致提升最终损失与准确率。论文提供了清晰的理论分析（如滑动模式行为）和广泛实证验证。代码已开源，未来可探索其在强化学习、微调、稀疏训练等场景的应用。
相关研究

1. Decoupled Weight Decay Regularization (ICLR 2019) 2. Adaptive Gradient Methods with Dynamic Bound of Learning Rate (ICLR 2019 - Lion) 3. MuON: Momentum Uncoupled OptimizatioN (2023) 4. Sliding Mode Control in Deep Learning (conceptual overlap) 5. LocoProp: Enhancing Training by Implicit Regularization (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问