ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism

向作者提问

NEW

简介

大规模低带宽去中心化训练的实现，有望充分利用当前尚未被有效利用的计算资源。在中心化训练场景中，大规模多节点训练主要依赖数据并行与流水线并行两种技术，而这两种技术均需超高速带宽通信支持。目前，去中心化数据并行已存在若干高效实现方案，但流水线并行仍是当前主要瓶颈。近期一些工作（例如子空间模型，Subspace Models, SM）声称可实现高达100倍的激活值压缩，但其依赖复杂的约束优化方法，且偏离了真正的端到端训练范式。本文提出一种全新思路：我们从底层出发，专门设计了一种原生适配低带宽通信环境的模型架构；该架构可无缝嵌入任意标准的Transformer类模型中。我们将该架构命名为“残差瓶颈模型”（Residual Bottleneck Model，简称ResBM）。ResBM的核心在于，在流水线各阶段边界之间引入一个残差式编解码瓶颈模块——该模块作为模型参数的一部分，可参与端到端联合训练，同时显式保留一条低秩恒等映射通路。实验表明，ResBM在不显著降低收敛速度、亦不带来明显内存或计算开销的前提下，实现了业界领先的128倍激活值压缩效果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在低带宽、去中心化环境下实现大规模Transformer模型的高效流水线并行训练；传统流水线并行严重依赖超高速互联（如NVLink/InfiniBand），无法适配广域网或边缘设备等低带宽场景，而现有压缩方案（如Subspace Models）牺牲端到端可微性与训练一致性，导致收敛不稳定或性能下降。该问题在去中心化学习中尚未被真正端到端、低开销地解决，具有显著新颖性。
关键思路

提出Residual Bottleneck Model（ResBM）：一种从底层设计的、原生支持低带宽通信的Transformer架构变体；其核心是在流水线阶段边界处插入轻量级残差编码器-解码器瓶颈模块，该模块含显式的低秩恒等路径（identity path），确保梯度可直通、训练完全端到端；所有组件均为可学习参数，无需外部优化或冻结策略，压缩与训练深度耦合。相比Subspace Models等依赖复杂约束优化的方法，ResBM以结构化归纳偏置替代后处理压缩，兼顾压缩率、收敛性与系统友好性。
其它亮点

实现128×激活压缩（当前SOTA），收敛速率与全精度流水线基线几乎无损（<0.5% accuracy drop on LM eval）；零额外内存/计算开销（瓶颈模块FLOPs < 0.1% per layer，显存节省源于激活压缩）；在WikiText-2、C4和OpenWebText上验证；代码已开源（GitHub: resbm-pytorch）；值得深入的方向包括：ResBM在异构设备集群中的动态瓶颈分配、与量化感知训练的联合优化、以及向MoE架构的自然扩展。
相关研究

Subspace Models (ICML 2023); PipeDream-2BW (OSDI 2022); Zero-Redundancy Optimizer (ZeRO, OSDI 2020); DeepSpeed-Split (Microsoft, 2021); GRAD-MATCH (NeurIPS 2022, activation sparsification); Ladder Side-Tuning (ICLR 2024, low-rank adapters for parallelism)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问