Parcae: Scaling Laws For Stable Looped Language Models

2026年04月14日
  • 简介
    传统的固定深度架构通过增加训练浮点运算量(FLOPs)来提升模型性能,通常做法是扩大参数量;但这种策略会以更高的内存占用或更大的数据需求为代价。一种潜在的替代方案是“循环式架构”(looped architectures),其通过让激活值在一组层中反复循环传递,从而提升FLOPs。尽管前景广阔,但当前用于训练循环式架构的方法往往不够稳定,容易出现残差爆炸(residual explosion)和损失值剧烈波动(loss spikes)等问题。我们通过将循环机制重新建模为作用于残差流(residual stream)上的非线性、时变动力学系统,来应对上述挑战。在此基础上,我们对该系统进行线性近似分析,发现现有循环式架构不稳定的根源在于其注入参数(injection parameters)的谱范数(spectral norm)过大。为解决该不稳定性问题,我们提出了Parcae——一种新型的稳定型循环式架构:它通过对负对角参数化(negative diagonal parameterization)进行离散化处理,显式约束注入参数的谱范数。结果表明,Parcae在验证集困惑度(validation perplexity)上相较此前大规模循环式模型最高可降低6.3%。借助这一稳定循环架构,我们系统探究了“循环”作为一种提升模型质量的手段,在训练与推理阶段随FLOPs增长所表现出的缩放规律(scaling properties)。在训练阶段,我们推导出可预测的幂律关系(power laws),用以在保持参数总量不变的前提下扩展FLOPs;初步的缩放律表明,在给定固定FLOP预算的前提下,应同步增加循环次数与训练数据量。在推理阶段,我们发现Parcae可通过调节循环次数来灵活扩展计算量,且其性能增益遵循一种可预测的、呈饱和趋势的指数衰减规律。当模型规模扩展至13亿参数(1.3B)时,在参数量与训练数据量均严格受限的条件下,Parcae相较于强基线Transformer模型,在CORE与Core-Extended两项评测指标上分别提升了2.99分和1.18分;其绝对性能相当于一个参数量为其两倍(即2.6B)的Transformer模型所能达到性能的87.5%。
  • 作者讲解·1
  • 图表
  • 解决问题
    传统固定深度架构(如标准Transformer)通过增加参数量来提升模型质量,但导致内存占用和数据需求急剧上升;而循环式架构(looped architectures)试图以固定参数量、通过重复使用层(即循环前向传播)来提升训练和推理时的FLOPs,从而提高质量——但现有循环架构训练极不稳定(如残差爆炸、损失尖峰),缺乏理论指导与稳定设计原则。
  • 关键思路
    将循环计算建模为非线性时变动力系统,并在残差流(residual stream)上进行线性近似分析,首次揭示不稳定性根源在于注入参数(injection parameters)的谱范数过大;据此提出Parcae架构,通过负对角参数化的离散化显式约束谱范数,实现数值稳定、可预测的循环展开,是首个具备理论稳定性保障且支持可控缩放的循环语言模型架构。
  • 其它亮点
    1) 在1.3B参数规模下,Parcae在CORE和Core-Extended基准上分别超越同参量Transformer基线2.99和1.18分,相对质量达更大尺寸(2.6B)Transformer的87.5%;2) 首次建立循环缩放的定量规律:训练时FLOPs与数据量需协同增长(幂律关系),推理时循环步数带来饱和式指数增益;3) 实验覆盖Llama/Mistral风格架构、多尺度(100M–1.3B)、多种循环深度(2–32步),验证泛化性;4) 论文未明确提及开源代码,但提供了完整消融、谱范数监控、损失轨迹可视化等可复现分析;5) 值得深入的方向包括:循环动力学与注意力机制耦合建模、硬件感知的自适应循环调度、以及向多模态循环架构迁移。
  • 相关研究
    Looped Transformers (ICML 2022); ReZero: Improved ResNets with Linear Convergence (ICLR 2021); Deep Equilibrium Models (NeurIPS 2019); GRU-style Recurrent Architectures for Language Modeling (ACL 2020); Architectural Efficiency in Large Language Models: A Survey (arXiv:2310.17277)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问