- 简介OpenDiLoCo是一个基于开源的实现和复制Distributed Low-Communication (DiLoCo)大型语言模型训练方法的项目。我们提供了DiLoCo实验的可重复实现,将其提供在一个可扩展的、分散式的训练框架中,使用Hivemind库。我们通过在两个大陆和三个国家训练模型,同时保持90-95%的计算利用率,证明了它的有效性。此外,我们进行了消融研究,重点关注算法的计算效率和工作人员数量的可扩展性,并展示了其梯度可以使用FP16进行全约简,而不会出现任何性能下降。此外,我们将OpenDiLoCo扩展到原始工作的3倍大小,证明了它对于十亿参数模型的有效性。
- 图表
- 解决问题OpenDiLoCo试图解决的问题是如何在分布式训练大型语言模型时减少通信开销。
- 关键思路OpenDiLoCo提出了一种名为DiLoCo的低通信分布式训练方法,并使用Hivemind库将其嵌入可扩展的分布式训练框架中。实验结果表明,该方法在跨越两个大陆和三个国家的情况下,仍能保持90-95%的计算利用率。
- 其它亮点该论文的亮点包括:实现了DiLoCo算法的开源代码;实验结果证明了该算法的有效性和可扩展性;通过消除梯度的高精度计算,提高了算法的计算效率;将OpenDiLoCo扩展到了十亿参数模型的规模。
- 相关研究包括:Distributed Deep Learning without Synchronization(2016),Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training(2017),和Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism(2019)。


提问交流