DiLoCo: Distributed Low-Communication Training of Language Models

Arthur Douillard ,
Qixuan Feng ,
Andrei A. Rusu ,
Rachita Chhaparia ,
Yani Donchev ,
Adhiguna Kuncoro ,
Marc'Aurelio Ranzato ,
Arthur Szlam ,
Jiajun Shen
2023年11月14日
  • 简介
    大型语言模型已经成为许多机器学习应用的关键组成部分。然而,训练LLM的标准方法需要大量紧密连接的加速器,设备在每次优化步骤中交换梯度和其他中间状态。虽然建立和维护一个承载许多加速器的单个计算集群很困难,但可能更容易找到几个承载较少设备的计算集群。在这项工作中,我们提出了一种分布式优化算法,分布式低通信(DiLoCo),它可以在设备连接较差的岛屿上训练语言模型。该方法是联合平均的变体,其中内部步骤的数量很大,内部优化器是AdamW,外部优化器是Nesterov动量。在广泛使用的C4数据集上,我们展示了8个工作人员的DiLoCo表现与完全同步优化相当,同时通信次数减少了500倍。DiLoCo对每个工作人员的数据分布具有很强的鲁棒性。它也对资源随时间变得不可用具有很强的鲁棒性,反之亦然,它可以在训练过程中无缝地利用变得可用的资源。
  • 图表
  • 解决问题
    论文试图解决在分布式环境下训练大型语言模型时,设备之间通信量大的问题。论文提出了一种分布式优化算法,旨在在设备之间通信较少的情况下训练语言模型。
  • 关键思路
    论文提出了一种名为DiLoCo的分布式优化算法,它是联邦平均的一种变体,其中内部优化器为AdamW,外部优化器为Nesterov动量,内部步骤数较多。该算法在8个工作节点上的表现与完全同步优化相当,但通信量少500倍。
  • 其它亮点
    论文在C4数据集上进行了实验,结果表明DiLoCo算法在8个工作节点上的表现与完全同步优化相当,但通信量少500倍。DiLoCo算法对每个工作节点的数据分布具有很好的鲁棒性。此外,该算法对资源在训练期间变得不可用或变得可用具有很好的适应性。论文还开源了代码。
  • 相关研究
    在最近的相关研究中,有一些与联邦学习相关的论文,例如“Federated Learning: Strategies for Improving Communication Efficiency”和“Advances and Open Problems in Federated Learning”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论