Decoupled DiLoCo for Resilient Distributed Pre-training

2026年04月23日
  • 简介
    当前,大规模语言模型的预训练高度依赖“单程序多数据”(SPMD)范式,该范式要求各加速器之间保持紧密耦合。正因这种强耦合特性,任何瞬时性能下降、硬件故障或同步开销都会导致整个计算流程停滞,从而在大规模训练场景下造成大量算力浪费。尽管近期一些分布式训练方法(例如 DiLoCo)已成功降低了通信带宽需求,但其本质上仍为同步式架构,因而依然无法规避上述系统级停滞问题。为解决这一根本性瓶颈,我们提出“解耦式 DiLoCo”(Decoupled DiLoCo)——这是 DiLoCo 框架的一次重要演进,旨在打破步调一致(lock-step)的同步壁垒,突破 SPMD 范式的固有约束,以最大化训练有效吞吐量(goodput)。解耦式 DiLoCo 将计算任务划分为多个彼此独立的“学习器”(learners),各学习器自主执行本地内层优化步骤;这些学习器以异步方式将参数分片(parameter fragments)发送至一个中心化同步器(central synchronizer);该同步器通过设定最小法定人数(minimum quorum)、自适应宽限期(adaptive grace window)以及动态令牌加权融合(dynamic token-weighted merging)机制,在部分学习器发生故障或成为拖慢整体进度的长尾节点(straggler)时,仍能稳健完成参数聚合。受“混沌工程”(chaos engineering)理念启发,我们在模拟规模达百万级芯片、故障频发的严苛环境中进行了验证:系统实现了显著提升的训练效率,且全局零宕机时间(strictly zero global downtime);同时,在文本与视觉任务上,无论是稠密模型(dense architectures)还是混合专家模型(mixture-of-expert architectures),所训练模型的性能均保持行业领先水平。
  • 作者讲解
  • 图表
  • 解决问题
    大规模语言模型预训练在SPMD范式下严重依赖跨加速器的强同步,导致单点瞬态故障、硬件失效或通信延迟即引发全局计算停滞,造成海量算力浪费;该问题在百万级芯片规模下尤为严峻,且现有分布式训练方法(如DiLoCo)虽降低带宽但仍未突破同步瓶颈。
  • 关键思路
    提出Decoupled DiLoCo:将训练解耦为多个独立异步运行的‘learner’,各自执行本地内层优化;通过中央synchronizer以最小法定人数(minimum quorum)、自适应宽限期(grace window)和动态token加权聚合机制,容错式地异步聚合参数碎片,彻底打破SPMD锁步同步约束,实现零全局停机的高吞吐训练。
  • 其它亮点
    ① 在千万级模拟芯片故障注入实验中实现严格零全局宕机,goodput提升显著;② 全面验证于文本(e.g., LLaMA-style dense & MoE)与视觉(ViT/MoE)任务,模型性能与同步基线相当;③ 受混沌工程启发,系统级鲁棒性设计为首创;④ 论文未提及其开源状态,但方法具强工程可迁移性;⑤ 值得深入:learner动态拓扑调度、quorum与token权重的理论收敛边界、异步更新对MoE路由稳定性的长期影响。
  • 相关研究
    DiLoCo: Distributed Local Optimization for Large Language Models (ICML 2023); ZeRO-Offload (SC 2021); DeepSpeed Ulysses (OSDI 2022); GShard & GLaM (Google, 2021); PipeDream-2BW (ASPLOS 2023); Async-SGD with Delay Compensation (NIPS 2016)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问