DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

2025年06月26日
  • 简介
    在基础模型(尤其是大语言模型)的分布式训练中,对通信性能的要求非常高,因此高度依赖具备高速可靠互联能力的集中式集群。那么,我们是否可以在较慢的网络条件下进行训练,从而在处理超过千亿参数的模型时释放出分布式集群的潜力呢?本文提出了DiLoCoX,这是一种低通信开销的大规模分布式集群训练框架。该框架结合了流水线并行、双优化器策略、通信与本地训练的一步延迟重叠机制以及自适应梯度压缩方案。这种组合显著提升了可训练参数的规模和模型预训练的速度。我们通过收敛性理论分析,验证了一步延迟通信重叠本地训练以及自适应梯度压缩方案所带来的优势。实验结果表明,DiLoCoX能够在1Gbps的网络环境下完成1070亿参数基础模型的预训练。相比传统的AllReduce方法,DiLoCoX在保持模型收敛效果几乎不受影响的前提下,将分布式训练速度提升了357倍。据我们所知,这是首个成功应用于千亿参数以上模型的分布式训练框架。
  • 图表
  • 解决问题
    论文试图解决在慢速网络环境下训练超大规模语言模型(超过1000亿参数)所面临的通信瓶颈问题。当前,大多数分布式训练依赖于高速、中心化的集群互联,而如何利用去中心化集群进行高效训练仍然是一个未被充分研究的问题。
  • 关键思路
    提出DiLoCoX框架,结合流水线并行、双优化器策略、通信与本地训练的一步延迟重叠机制以及自适应梯度压缩方案,以显著降低通信开销并提升训练效率。其创新点在于将这些技术有机融合,并首次成功应用于千亿参数规模的模型训练。
  • 其它亮点
    1. 理论分析了通信延迟重叠和梯度压缩对收敛性的影响 2. 实验证明可以在1Gbps慢速网络上预训练107B参数的模型 3. 相比传统AllReduce方法实现了357倍的速度提升 4. 模型收敛性几乎无损 5. 首次实现千亿参数模型的去中心化训练
  • 相关研究
    1. ZeRO: Zero-Redundancy Optimizer for Large-Scale Deep Learning Training 2. PipeDream: Generalized Pipeline Parallelism for DNN Training 3. Gradient Compression Techniques for Distributed Training: SignSGD and Beyond 4. Decentralized SGD with Compressed Communication over Slow Networks 5. Efficient Large-Scale Language Model Training without AllReduce
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论