PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

向作者提问

NEW

简介

我们提出了一种预条件化（Preconditioning，简称 PC）层，该层通过多项式预条件器对权重进行参数化，从而在整个大语言模型（LLM）训练过程中保障权重条件数的稳定性。PC 模块利用低阶多项式预条件化技术，重塑权重矩阵的奇异值谱。训练完成后，预条件化后的权重可无缝融合回原始模型架构中，推理阶段不产生任何额外开销。我们在 Llama-1B 模型的预训练任务中验证了所提出的 PC 层相较于标准 Transformer 架构的优势，实验覆盖 AdamW 和 Muon 两种优化器。理论上，我们为这种“谱控制”机制提供了严格支撑：针对特定类型的深度线性网络，我们证明——若能对每一层的奇异值施加一致上界，则梯度下降法可保证以几何速率收敛至全局最优解。我们的代码已开源，地址为：https://github.com/Empath-aln/PC-layer。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决大语言模型（LLM）训练过程中权重矩阵病态条件（即奇异值分布极度不均衡）导致的优化不稳定、收敛缓慢甚至失败的问题；该问题在标准Transformer中长期存在但缺乏结构化、可证明有效的谱控制机制，属于对深度学习底层优化动力学建模的新颖切入角度。
关键思路

提出可学习的多项式预条件（PC）层——一种轻量级、可微分的权重参数化方式，通过低次多项式函数显式重塑权重矩阵的奇异值谱（如压缩过大奇异值、放大过小奇异值），使各层奇异值均匀有界；训练后可无损合并回原始架构，不增加推理开销；其核心新意在于将数值线性代数中的预条件思想系统性引入LLM权重更新路径，并赋予理论收敛保证。
其它亮点

在Llama-1B规模模型上完成完整预训练验证，覆盖AdamW与Muon两种优化器，显著提升训练稳定性与收敛速度；理论证明：对一类深度线性网络，若每层权重奇异值被一致有界，则梯度下降以几何速率收敛至全局最优；代码完全开源（GitHub: https://github.com/Empath-aln/PC-layer）；实验设计包含消融研究、谱演化可视化及下游任务迁移评估；值得深入的方向包括：PC层在MoE架构中的适配、动态阶数多项式设计、以及向非线性网络扩展的收敛性分析。
相关研究

《On the Difficulty of Training Transformers with Gradient Descent》(ICML 2023)；《Spectral Normalization for Generative Adversarial Networks》(ICLR 2018)；《Deep Linear Networks Dynamics: Low-Rank Biases and Convergence to Global Minima》(NeurIPS 2020)；《Muon: A Momentum-Based Optimizer for Transformers》(arXiv 2024)；《Weight Decay Does Not Affect Generalization in Transformers》(ACL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问