Decoupled DiLoCo for Resilient Distributed Pre-training

向作者提问

NEW

简介

当前，大规模语言模型的预训练高度依赖“单程序多数据”（SPMD）范式，该范式要求各加速器之间保持紧密耦合。正因这种强耦合特性，任何瞬时性能下降、硬件故障或同步开销都会导致整个计算流程停滞，从而在大规模训练场景下造成大量算力浪费。尽管近期一些分布式训练方法（例如 DiLoCo）已成功降低了通信带宽需求，但其本质上仍为同步式架构，因而依然无法规避上述系统级停滞问题。为解决这一根本性瓶颈，我们提出“解耦式 DiLoCo”（Decoupled DiLoCo）——这是 DiLoCo 框架的一次重要演进，旨在打破步调一致（lock-step）的同步壁垒，突破 SPMD 范式的固有约束，以最大化训练有效吞吐量（goodput）。解耦式 DiLoCo 将计算任务划分为多个彼此独立的“学习器”（learners），各学习器自主执行本地内层优化步骤；这些学习器以异步方式将参数分片（parameter fragments）发送至一个中心化同步器（central synchronizer）；该同步器通过设定最小法定人数（minimum quorum）、自适应宽限期（adaptive grace window）以及动态令牌加权融合（dynamic token-weighted merging）机制，在部分学习器发生故障或成为拖慢整体进度的长尾节点（straggler）时，仍能稳健完成参数聚合。受“混沌工程”（chaos engineering）理念启发，我们在模拟规模达百万级芯片、故障频发的严苛环境中进行了验证：系统实现了显著提升的训练效率，且全局零宕机时间（strictly zero global downtime）；同时，在文本与视觉任务上，无论是稠密模型（dense architectures）还是混合专家模型（mixture-of-expert architectures），所训练模型的性能均保持行业领先水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大规模语言模型预训练在SPMD范式下严重依赖跨加速器的强同步，导致单点瞬态故障、硬件失效或通信延迟即引发全局计算停滞，造成海量算力浪费；该问题在百万级芯片规模下尤为严峻，且现有分布式训练方法（如DiLoCo）虽降低带宽但仍未突破同步瓶颈。
关键思路

提出Decoupled DiLoCo：将训练解耦为多个独立异步运行的‘learner’，各自执行本地内层优化；通过中央synchronizer以最小法定人数（minimum quorum）、自适应宽限期（grace window）和动态token加权聚合机制，容错式地异步聚合参数碎片，彻底打破SPMD锁步同步约束，实现零全局停机的高吞吐训练。
其它亮点

① 在千万级模拟芯片故障注入实验中实现严格零全局宕机，goodput提升显著；② 全面验证于文本（e.g., LLaMA-style dense & MoE）与视觉（ViT/MoE）任务，模型性能与同步基线相当；③ 受混沌工程启发，系统级鲁棒性设计为首创；④ 论文未提及其开源状态，但方法具强工程可迁移性；⑤ 值得深入：learner动态拓扑调度、quorum与token权重的理论收敛边界、异步更新对MoE路由稳定性的长期影响。
相关研究

DiLoCo: Distributed Local Optimization for Large Language Models (ICML 2023); ZeRO-Offload (SC 2021); DeepSpeed Ulysses (OSDI 2022); GShard & GLaM (Google, 2021); PipeDream-2BW (ASPLOS 2023); Async-SGD with Delay Compensation (NIPS 2016)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问