PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

2026年06月04日
  • 简介
    我们提出了一种预条件化(Preconditioning,简称 PC)层,该层通过多项式预条件器对权重进行参数化,从而在整个大语言模型(LLM)训练过程中保障权重条件数的稳定性。PC 模块利用低阶多项式预条件化技术,重塑权重矩阵的奇异值谱。训练完成后,预条件化后的权重可无缝融合回原始模型架构中,推理阶段不产生任何额外开销。我们在 Llama-1B 模型的预训练任务中验证了所提出的 PC 层相较于标准 Transformer 架构的优势,实验覆盖 AdamW 和 Muon 两种优化器。理论上,我们为这种“谱控制”机制提供了严格支撑:针对特定类型的深度线性网络,我们证明——若能对每一层的奇异值施加一致上界,则梯度下降法可保证以几何速率收敛至全局最优解。我们的代码已开源,地址为:https://github.com/Empath-aln/PC-layer。
  • 作者讲解
  • 图表
  • 解决问题
    解决大语言模型(LLM)训练过程中权重矩阵病态条件(即奇异值分布极度不均衡)导致的优化不稳定、收敛缓慢甚至失败的问题;该问题在标准Transformer中长期存在但缺乏结构化、可证明有效的谱控制机制,属于对深度学习底层优化动力学建模的新颖切入角度。
  • 关键思路
    提出可学习的多项式预条件(PC)层——一种轻量级、可微分的权重参数化方式,通过低次多项式函数显式重塑权重矩阵的奇异值谱(如压缩过大奇异值、放大过小奇异值),使各层奇异值均匀有界;训练后可无损合并回原始架构,不增加推理开销;其核心新意在于将数值线性代数中的预条件思想系统性引入LLM权重更新路径,并赋予理论收敛保证。
  • 其它亮点
    在Llama-1B规模模型上完成完整预训练验证,覆盖AdamW与Muon两种优化器,显著提升训练稳定性与收敛速度;理论证明:对一类深度线性网络,若每层权重奇异值被一致有界,则梯度下降以几何速率收敛至全局最优;代码完全开源(GitHub: https://github.com/Empath-aln/PC-layer);实验设计包含消融研究、谱演化可视化及下游任务迁移评估;值得深入的方向包括:PC层在MoE架构中的适配、动态阶数多项式设计、以及向非线性网络扩展的收敛性分析。
  • 相关研究
    《On the Difficulty of Training Transformers with Gradient Descent》(ICML 2023);《Spectral Normalization for Generative Adversarial Networks》(ICLR 2018);《Deep Linear Networks Dynamics: Low-Rank Biases and Convergence to Global Minima》(NeurIPS 2020);《Muon: A Momentum-Based Optimizer for Transformers》(arXiv 2024);《Weight Decay Does Not Affect Generalization in Transformers》(ACL 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问