Muon is Not That Special: Random or Inverted Spectra Work Just as Well

2026年05月11日
  • 简介
    近期,缪子优化器(Muon optimizer)在实证研究中取得的成功,重新激起了学界对非欧几里得优化的关注;而这类方法通常被解释为在几何上类似于二阶优化方法,并依托于线性极小化预言机(LMO)理论。本文通过三项贡献,对这一基于几何直觉的叙事提出质疑,证明精确的几何结构并非影响优化性能的关键因素。 首先,我们提出“弗瑞昂”(Freon)——一类基于施瓦茨(Schatten)范数(含拟范数)的新型优化器族,其核心是一种新颖且经严格证明为最优的、基于QDWH算法的迭代近似方法。弗瑞昂自然地在随机梯度下降(SGD)与缪子优化器之间实现插值,同时还能平滑地外推至拟范数区域。实证结果表明:在GPT-2模型上表现最优的施瓦茨参数严格位于拟范数区域之内,因而无法由任何酉不变的线性极小化预言机所表征。 其次,鉴于弗瑞昂在广泛指数范围内均表现出稳健性能,我们进一步提出“卡翁”(Kaon)——一种看似荒谬的优化器:它直接以随机噪声替代奇异值。尽管完全缺乏一致的几何结构,卡翁仍能与缪子优化器达到同等性能,并保留经典收敛性保证,从而证实:在实际应用中,对某种精确几何结构的严格遵循并无实质意义。 最后,在已明确几何特性并非性能主导因素的前提下,我们揭示真正起决定性作用的是两个局部量:对齐度(alignment)与下降潜力(descent potential)。归根结底,每种优化器都必须围绕这两个量来调节其步长。虽然二者在训练过程中的动态演化难以事先准确预测,但在一个随机特征(stochastic random feature)模型框架下对其进行分析,却可得出一个清晰洞见:缪子优化器之所以成功,并非因其刻画了某种理想的全局几何结构,而在于它能保证每一步的步长均为最优。
  • 作者讲解
  • 图表
  • 解决问题
    质疑当前非-Euclidean优化(如Muon)中‘几何结构决定性能’的主流叙事,验证‘精确几何结构并非优化性能的关键驱动因素’这一假设;这是一个对基础优化理论范式的根本性质疑,具有概念新颖性。
  • 关键思路
    提出‘性能由局部量(alignment和descent potential)而非全局几何决定’的新原理:Freon通过Schatten (quasi-)norms插值SGD与Muon并突破LMO表征边界;Kaon用随机噪声替代奇异值却保持收敛与性能,彻底解耦几何结构与优化实效;最终将步长选择归结为对两个局部量的动态调谐。
  • 其它亮点
    实验在GPT-2上验证Freon最优Schatten指数p≈0.7(严格属于quasi-norm,不可被任何unitarily invariant LMO实现);Kaon在标准LM training中与Muon性能持平且保留O(1/√T)收敛保证;理论分析基于stochastic random feature model,首次定量揭示Muon本质是隐式实现步长最优性而非几何忠实性;全文无开源代码声明,未提数据集细节(默认Hugging Face GPT-2 checkpoints),但QDWH迭代算法具独立数值价值。
  • 相关研究
    Muon: Fast and Memory-Efficient Training of Large Language Models (ICML 2023); Frank-Wolfe and Friends: A Gentle Introduction to Modern Convex Optimization (Foundations and Trends in Optimization, 2022); On the Convergence of Stochastic Heavy-Ball Methods (NeurIPS 2021); Adaptive Gradient Methods with Dynamic Bound of the Learning Rate (ICLR 2022); The Role of Implicit Regularization in Deep Learning (JMLR 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问