Hyperloop Transformers - 智源社区论文

向作者提问

NEW

简介

大语言模型（LLM）架构研究通常旨在固定计算量或延迟预算的前提下，最大化模型性能。然而，许多实际应用场景——例如边缘设备与终端设备上的部署——还额外受到模型内存占用的严格限制，因此亟需参数更高效的语言建模架构。本文提出一种简洁的架构设计，显著提升了大语言模型的参数利用效率。该架构以“循环式Transformer”（looped Transformer）为核心基本单元：它通过在深度方向上复用同一组Transformer层，从而相比同等深度的传统Transformer大幅减少参数量。我们将循环式Transformer划分为三个模块——起始模块（begin block）、中间模块（middle block）和终止模块（end block），其中每个模块本身均由多个Transformer层构成，而仅中间模块在深度方向上被循环应用。此外，我们为中间循环模块引入了“超连接”（hyper-connections，Xie等，2026），将残差流从标量或向量形式扩展为矩阵形式的残差流。超连接仅在每次循环迭代结束后施加，因此新增的参数量与计算开销均极小。在多种模型规模下，我们的“超连接循环式Transformer”（Hyperloop Transformer）均显著优于参数量相当（depth-matched）的传统Transformer基线及mHC Transformer基线，同时参数总量减少约50%。值得注意的是，这一性能优势在模型后训练权重量化（post-training weight quantization）之后依然保持稳定，因而Hyperloop Transformer成为面向内存受限场景的语言建模任务极具吸引力的架构选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决边缘与端侧部署场景下大语言模型（LLM）的内存占用过高问题，即在严格参数预算（而非仅计算或延迟预算）约束下提升语言建模质量。这是一个日益紧迫但尚未被充分优化的新问题——传统LLM研究聚焦于compute/latency权衡，而忽视了参数量对设备存储、带宽和缓存效率的硬性制约。
关键思路

提出Hyperloop Transformer：一种参数高效的循环架构，其核心是将标准Transformer的中间块（middle block）设计为可重复调用的‘环路’（looped），实现深度维度上的参数共享；并创新性地引入轻量级‘超连接’（hyper-connections）——仅在每次循环后将标量残差流升维为矩阵残差流，以增强表达能力而不显著增加参数或FLOPs。相比mHC Transformer等基线，该设计以约50%参数量实现更强性能，首次将循环复用、残差流升维与模块化三段式结构（begin-middle-end）有机结合。
其它亮点

实验覆盖多个模型规模（从100M到1B参数），在标准LM评估基准（如WikiText-2、PTB、C4子集）上一致超越深度匹配的Transformer和mHC Transformer；关键优势在post-training 4-bit量化后仍保持，验证其对实际部署的友好性；全文强调工程可行性——超连接仅增加<0.1%参数，无额外训练时序开销；作者承诺开源代码与检查点（见附录A及项目GitHub仓库）；值得深入的方向包括：超连接的理论表征能力分析、环路次数的自适应控制机制、以及在多模态轻量模型中的迁移应用。
相关研究

Looped Transformers (Dehghani et al., 2019); mHC Transformer (Xie et al., 2026); Reformer (Kitaev et al., 2020); Linformer (Wang et al., 2020); FlashAttention (Dao et al., 2022); TinyBERT (Jiao et al., 2020); MobileBERT (Sun et al., 2020); LLaMA-3-8B-Quant (Meta, 2024 Technical Report)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问