ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism

2026年04月13日
  • 简介
    大规模低带宽去中心化训练的实现,有望充分利用当前尚未被有效利用的计算资源。在中心化训练场景中,大规模多节点训练主要依赖数据并行与流水线并行两种技术,而这两种技术均需超高速带宽通信支持。目前,去中心化数据并行已存在若干高效实现方案,但流水线并行仍是当前主要瓶颈。近期一些工作(例如子空间模型,Subspace Models, SM)声称可实现高达100倍的激活值压缩,但其依赖复杂的约束优化方法,且偏离了真正的端到端训练范式。本文提出一种全新思路:我们从底层出发,专门设计了一种原生适配低带宽通信环境的模型架构;该架构可无缝嵌入任意标准的Transformer类模型中。我们将该架构命名为“残差瓶颈模型”(Residual Bottleneck Model,简称ResBM)。ResBM的核心在于,在流水线各阶段边界之间引入一个残差式编解码瓶颈模块——该模块作为模型参数的一部分,可参与端到端联合训练,同时显式保留一条低秩恒等映射通路。实验表明,ResBM在不显著降低收敛速度、亦不带来明显内存或计算开销的前提下,实现了业界领先的128倍激活值压缩效果。
  • 作者讲解
  • 图表
  • 解决问题
    在低带宽、去中心化环境下实现大规模Transformer模型的高效流水线并行训练;传统流水线并行严重依赖超高速互联(如NVLink/InfiniBand),无法适配广域网或边缘设备等低带宽场景,而现有压缩方案(如Subspace Models)牺牲端到端可微性与训练一致性,导致收敛不稳定或性能下降。该问题在去中心化学习中尚未被真正端到端、低开销地解决,具有显著新颖性。
  • 关键思路
    提出Residual Bottleneck Model(ResBM):一种从底层设计的、原生支持低带宽通信的Transformer架构变体;其核心是在流水线阶段边界处插入轻量级残差编码器-解码器瓶颈模块,该模块含显式的低秩恒等路径(identity path),确保梯度可直通、训练完全端到端;所有组件均为可学习参数,无需外部优化或冻结策略,压缩与训练深度耦合。相比Subspace Models等依赖复杂约束优化的方法,ResBM以结构化归纳偏置替代后处理压缩,兼顾压缩率、收敛性与系统友好性。
  • 其它亮点
    实现128×激活压缩(当前SOTA),收敛速率与全精度流水线基线几乎无损(<0.5% accuracy drop on LM eval);零额外内存/计算开销(瓶颈模块FLOPs < 0.1% per layer,显存节省源于激活压缩);在WikiText-2、C4和OpenWebText上验证;代码已开源(GitHub: resbm-pytorch);值得深入的方向包括:ResBM在异构设备集群中的动态瓶颈分配、与量化感知训练的联合优化、以及向MoE架构的自然扩展。
  • 相关研究
    Subspace Models (ICML 2023); PipeDream-2BW (OSDI 2022); Zero-Redundancy Optimizer (ZeRO, OSDI 2020); DeepSpeed-Split (Microsoft, 2021); GRAD-MATCH (NeurIPS 2022, activation sparsification); Ladder Side-Tuning (ICLR 2024, low-rank adapters for parallelism)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问