DiLoCo: Distributed Low-Communication Training of Language Models

简介

大型语言模型已经成为许多机器学习应用的关键组成部分。然而，训练LLM的标准方法需要大量紧密连接的加速器，设备在每次优化步骤中交换梯度和其他中间状态。虽然建立和维护一个承载许多加速器的单个计算集群很困难，但可能更容易找到几个承载较少设备的计算集群。在这项工作中，我们提出了一种分布式优化算法，分布式低通信（DiLoCo），它可以在设备连接较差的岛屿上训练语言模型。该方法是联合平均的变体，其中内部步骤的数量很大，内部优化器是AdamW，外部优化器是Nesterov动量。在广泛使用的C4数据集上，我们展示了8个工作人员的DiLoCo表现与完全同步优化相当，同时通信次数减少了500倍。DiLoCo对每个工作人员的数据分布具有很强的鲁棒性。它也对资源随时间变得不可用具有很强的鲁棒性，反之亦然，它可以在训练过程中无缝地利用变得可用的资源。
图表
解决问题

论文试图解决在分布式环境下训练大型语言模型时，设备之间通信量大的问题。论文提出了一种分布式优化算法，旨在在设备之间通信较少的情况下训练语言模型。
关键思路

论文提出了一种名为DiLoCo的分布式优化算法，它是联邦平均的一种变体，其中内部优化器为AdamW，外部优化器为Nesterov动量，内部步骤数较多。该算法在8个工作节点上的表现与完全同步优化相当，但通信量少500倍。
其它亮点

论文在C4数据集上进行了实验，结果表明DiLoCo算法在8个工作节点上的表现与完全同步优化相当，但通信量少500倍。DiLoCo算法对每个工作节点的数据分布具有很好的鲁棒性。此外，该算法对资源在训练期间变得不可用或变得可用具有很好的适应性。论文还开源了代码。
相关研究

在最近的相关研究中，有一些与联邦学习相关的论文，例如“Federated Learning: Strategies for Improving Communication Efficiency”和“Advances and Open Problems in Federated Learning”。

DiLoCo: Distributed Low-Communication Training of Language Models

评论