Parcae: Scaling Laws For Stable Looped Language Models

向作者提问

NEW

简介

传统的固定深度架构通过增加训练浮点运算量（FLOPs）来提升模型性能，通常做法是扩大参数量；但这种策略会以更高的内存占用或更大的数据需求为代价。一种潜在的替代方案是“循环式架构”（looped architectures），其通过让激活值在一组层中反复循环传递，从而提升FLOPs。尽管前景广阔，但当前用于训练循环式架构的方法往往不够稳定，容易出现残差爆炸（residual explosion）和损失值剧烈波动（loss spikes）等问题。我们通过将循环机制重新建模为作用于残差流（residual stream）上的非线性、时变动力学系统，来应对上述挑战。在此基础上，我们对该系统进行线性近似分析，发现现有循环式架构不稳定的根源在于其注入参数（injection parameters）的谱范数（spectral norm）过大。为解决该不稳定性问题，我们提出了Parcae——一种新型的稳定型循环式架构：它通过对负对角参数化（negative diagonal parameterization）进行离散化处理，显式约束注入参数的谱范数。结果表明，Parcae在验证集困惑度（validation perplexity）上相较此前大规模循环式模型最高可降低6.3%。借助这一稳定循环架构，我们系统探究了“循环”作为一种提升模型质量的手段，在训练与推理阶段随FLOPs增长所表现出的缩放规律（scaling properties）。在训练阶段，我们推导出可预测的幂律关系（power laws），用以在保持参数总量不变的前提下扩展FLOPs；初步的缩放律表明，在给定固定FLOP预算的前提下，应同步增加循环次数与训练数据量。在推理阶段，我们发现Parcae可通过调节循环次数来灵活扩展计算量，且其性能增益遵循一种可预测的、呈饱和趋势的指数衰减规律。当模型规模扩展至13亿参数（1.3B）时，在参数量与训练数据量均严格受限的条件下，Parcae相较于强基线Transformer模型，在CORE与Core-Extended两项评测指标上分别提升了2.99分和1.18分；其绝对性能相当于一个参数量为其两倍（即2.6B）的Transformer模型所能达到性能的87.5%。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

传统固定深度架构（如标准Transformer）通过增加参数量来提升模型质量，但导致内存占用和数据需求急剧上升；而循环式架构（looped architectures）试图以固定参数量、通过重复使用层（即循环前向传播）来提升训练和推理时的FLOPs，从而提高质量——但现有循环架构训练极不稳定（如残差爆炸、损失尖峰），缺乏理论指导与稳定设计原则。
关键思路

将循环计算建模为非线性时变动力系统，并在残差流（residual stream）上进行线性近似分析，首次揭示不稳定性根源在于注入参数（injection parameters）的谱范数过大；据此提出Parcae架构，通过负对角参数化的离散化显式约束谱范数，实现数值稳定、可预测的循环展开，是首个具备理论稳定性保障且支持可控缩放的循环语言模型架构。
其它亮点

1) 在1.3B参数规模下，Parcae在CORE和Core-Extended基准上分别超越同参量Transformer基线2.99和1.18分，相对质量达更大尺寸（2.6B）Transformer的87.5%；2) 首次建立循环缩放的定量规律：训练时FLOPs与数据量需协同增长（幂律关系），推理时循环步数带来饱和式指数增益；3) 实验覆盖Llama/Mistral风格架构、多尺度（100M–1.3B）、多种循环深度（2–32步），验证泛化性；4) 论文未明确提及开源代码，但提供了完整消融、谱范数监控、损失轨迹可视化等可复现分析；5) 值得深入的方向包括：循环动力学与注意力机制耦合建模、硬件感知的自适应循环调度、以及向多模态循环架构迁移。
相关研究

Looped Transformers (ICML 2022); ReZero: Improved ResNets with Linear Convergence (ICLR 2021); Deep Equilibrium Models (NeurIPS 2019); GRU-style Recurrent Architectures for Language Modeling (ACL 2020); Architectural Efficiency in Large Language Models: A Survey (arXiv:2310.17277)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问