- 简介大型语言模型已经成为许多机器学习应用的关键组成部分。然而,训练LLM的标准方法需要大量紧密连接的加速器,设备在每次优化步骤中交换梯度和其他中间状态。虽然建立和维护一个承载许多加速器的单个计算集群很困难,但可能更容易找到几个承载较少设备的计算集群。在这项工作中,我们提出了一种分布式优化算法,分布式低通信(DiLoCo),它可以在设备连接较差的岛屿上训练语言模型。该方法是联合平均的变体,其中内部步骤的数量很大,内部优化器是AdamW,外部优化器是Nesterov动量。在广泛使用的C4数据集上,我们展示了8个工作人员的DiLoCo表现与完全同步优化相当,同时通信次数减少了500倍。DiLoCo对每个工作人员的数据分布具有很强的鲁棒性。它也对资源随时间变得不可用具有很强的鲁棒性,反之亦然,它可以在训练过程中无缝地利用变得可用的资源。
- 图表
- 解决问题论文试图解决在分布式环境下训练大型语言模型时,设备之间通信量大的问题。论文提出了一种分布式优化算法,旨在在设备之间通信较少的情况下训练语言模型。
- 关键思路论文提出了一种名为DiLoCo的分布式优化算法,它是联邦平均的一种变体,其中内部优化器为AdamW,外部优化器为Nesterov动量,内部步骤数较多。该算法在8个工作节点上的表现与完全同步优化相当,但通信量少500倍。
- 其它亮点论文在C4数据集上进行了实验,结果表明DiLoCo算法在8个工作节点上的表现与完全同步优化相当,但通信量少500倍。DiLoCo算法对每个工作节点的数据分布具有很好的鲁棒性。此外,该算法对资源在训练期间变得不可用或变得可用具有很好的适应性。论文还开源了代码。
- 在最近的相关研究中,有一些与联邦学习相关的论文,例如“Federated Learning: Strategies for Improving Communication Efficiency”和“Advances and Open Problems in Federated Learning”。
沙发等你来抢
去评论
评论
沙发等你来抢