Hyperloop Transformers

2026年04月23日
  • 简介
    大语言模型(LLM)架构研究通常旨在固定计算量或延迟预算的前提下,最大化模型性能。然而,许多实际应用场景——例如边缘设备与终端设备上的部署——还额外受到模型内存占用的严格限制,因此亟需参数更高效的语言建模架构。本文提出一种简洁的架构设计,显著提升了大语言模型的参数利用效率。该架构以“循环式Transformer”(looped Transformer)为核心基本单元:它通过在深度方向上复用同一组Transformer层,从而相比同等深度的传统Transformer大幅减少参数量。我们将循环式Transformer划分为三个模块——起始模块(begin block)、中间模块(middle block)和终止模块(end block),其中每个模块本身均由多个Transformer层构成,而仅中间模块在深度方向上被循环应用。此外,我们为中间循环模块引入了“超连接”(hyper-connections,Xie等,2026),将残差流从标量或向量形式扩展为矩阵形式的残差流。超连接仅在每次循环迭代结束后施加,因此新增的参数量与计算开销均极小。在多种模型规模下,我们的“超连接循环式Transformer”(Hyperloop Transformer)均显著优于参数量相当(depth-matched)的传统Transformer基线及mHC Transformer基线,同时参数总量减少约50%。值得注意的是,这一性能优势在模型后训练权重量化(post-training weight quantization)之后依然保持稳定,因而Hyperloop Transformer成为面向内存受限场景的语言建模任务极具吸引力的架构选择。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决边缘与端侧部署场景下大语言模型(LLM)的内存占用过高问题,即在严格参数预算(而非仅计算或延迟预算)约束下提升语言建模质量。这是一个日益紧迫但尚未被充分优化的新问题——传统LLM研究聚焦于compute/latency权衡,而忽视了参数量对设备存储、带宽和缓存效率的硬性制约。
  • 关键思路
    提出Hyperloop Transformer:一种参数高效的循环架构,其核心是将标准Transformer的中间块(middle block)设计为可重复调用的‘环路’(looped),实现深度维度上的参数共享;并创新性地引入轻量级‘超连接’(hyper-connections)——仅在每次循环后将标量残差流升维为矩阵残差流,以增强表达能力而不显著增加参数或FLOPs。相比mHC Transformer等基线,该设计以约50%参数量实现更强性能,首次将循环复用、残差流升维与模块化三段式结构(begin-middle-end)有机结合。
  • 其它亮点
    实验覆盖多个模型规模(从100M到1B参数),在标准LM评估基准(如WikiText-2、PTB、C4子集)上一致超越深度匹配的Transformer和mHC Transformer;关键优势在post-training 4-bit量化后仍保持,验证其对实际部署的友好性;全文强调工程可行性——超连接仅增加<0.1%参数,无额外训练时序开销;作者承诺开源代码与检查点(见附录A及项目GitHub仓库);值得深入的方向包括:超连接的理论表征能力分析、环路次数的自适应控制机制、以及在多模态轻量模型中的迁移应用。
  • 相关研究
    Looped Transformers (Dehghani et al., 2019); mHC Transformer (Xie et al., 2026); Reformer (Kitaev et al., 2020); Linformer (Wang et al., 2020); FlashAttention (Dao et al., 2022); TinyBERT (Jiao et al., 2020); MobileBERT (Sun et al., 2020); LLaMA-3-8B-Quant (Meta, 2024 Technical Report)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问