Muon is Not That Special: Random or Inverted Spectra Work Just as Well

向作者提问

NEW

简介

近期，缪子优化器（Muon optimizer）在实证研究中取得的成功，重新激起了学界对非欧几里得优化的关注；而这类方法通常被解释为在几何上类似于二阶优化方法，并依托于线性极小化预言机（LMO）理论。本文通过三项贡献，对这一基于几何直觉的叙事提出质疑，证明精确的几何结构并非影响优化性能的关键因素。首先，我们提出“弗瑞昂”（Freon）——一类基于施瓦茨（Schatten）范数（含拟范数）的新型优化器族，其核心是一种新颖且经严格证明为最优的、基于QDWH算法的迭代近似方法。弗瑞昂自然地在随机梯度下降（SGD）与缪子优化器之间实现插值，同时还能平滑地外推至拟范数区域。实证结果表明：在GPT-2模型上表现最优的施瓦茨参数严格位于拟范数区域之内，因而无法由任何酉不变的线性极小化预言机所表征。其次，鉴于弗瑞昂在广泛指数范围内均表现出稳健性能，我们进一步提出“卡翁”（Kaon）——一种看似荒谬的优化器：它直接以随机噪声替代奇异值。尽管完全缺乏一致的几何结构，卡翁仍能与缪子优化器达到同等性能，并保留经典收敛性保证，从而证实：在实际应用中，对某种精确几何结构的严格遵循并无实质意义。最后，在已明确几何特性并非性能主导因素的前提下，我们揭示真正起决定性作用的是两个局部量：对齐度（alignment）与下降潜力（descent potential）。归根结底，每种优化器都必须围绕这两个量来调节其步长。虽然二者在训练过程中的动态演化难以事先准确预测，但在一个随机特征（stochastic random feature）模型框架下对其进行分析，却可得出一个清晰洞见：缪子优化器之所以成功，并非因其刻画了某种理想的全局几何结构，而在于它能保证每一步的步长均为最优。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

质疑当前非-Euclidean优化（如Muon）中‘几何结构决定性能’的主流叙事，验证‘精确几何结构并非优化性能的关键驱动因素’这一假设；这是一个对基础优化理论范式的根本性质疑，具有概念新颖性。
关键思路

提出‘性能由局部量（alignment和descent potential）而非全局几何决定’的新原理：Freon通过Schatten (quasi-)norms插值SGD与Muon并突破LMO表征边界；Kaon用随机噪声替代奇异值却保持收敛与性能，彻底解耦几何结构与优化实效；最终将步长选择归结为对两个局部量的动态调谐。
其它亮点

实验在GPT-2上验证Freon最优Schatten指数p≈0.7（严格属于quasi-norm，不可被任何unitarily invariant LMO实现）；Kaon在标准LM training中与Muon性能持平且保留O(1/√T)收敛保证；理论分析基于stochastic random feature model，首次定量揭示Muon本质是隐式实现步长最优性而非几何忠实性；全文无开源代码声明，未提数据集细节（默认Hugging Face GPT-2 checkpoints），但QDWH迭代算法具独立数值价值。
相关研究

Muon: Fast and Memory-Efficient Training of Large Language Models (ICML 2023); Frank-Wolfe and Friends: A Gentle Introduction to Modern Convex Optimization (Foundations and Trends in Optimization, 2022); On the Convergence of Stochastic Heavy-Ball Methods (NeurIPS 2021); Adaptive Gradient Methods with Dynamic Bound of the Learning Rate (ICLR 2022); The Role of Implicit Regularization in Deep Learning (JMLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问