OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training

2024年07月10日
  • 简介
    OpenDiLoCo是一个基于开源的实现和复制Distributed Low-Communication (DiLoCo)大型语言模型训练方法的项目。我们提供了DiLoCo实验的可重复实现,将其提供在一个可扩展的、分散式的训练框架中,使用Hivemind库。我们通过在两个大陆和三个国家训练模型,同时保持90-95%的计算利用率,证明了它的有效性。此外,我们进行了消融研究,重点关注算法的计算效率和工作人员数量的可扩展性,并展示了其梯度可以使用FP16进行全约简,而不会出现任何性能下降。此外,我们将OpenDiLoCo扩展到原始工作的3倍大小,证明了它对于十亿参数模型的有效性。
  • 图表
  • 解决问题
    OpenDiLoCo试图解决的问题是如何在分布式训练大型语言模型时减少通信开销。
  • 关键思路
    OpenDiLoCo提出了一种名为DiLoCo的低通信分布式训练方法,并使用Hivemind库将其嵌入可扩展的分布式训练框架中。实验结果表明,该方法在跨越两个大陆和三个国家的情况下,仍能保持90-95%的计算利用率。
  • 其它亮点
    该论文的亮点包括:实现了DiLoCo算法的开源代码;实验结果证明了该算法的有效性和可扩展性;通过消除梯度的高精度计算,提高了算法的计算效率;将OpenDiLoCo扩展到了十亿参数模型的规模。
  • 相关研究
    相关研究包括:Distributed Deep Learning without Synchronization(2016),Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training(2017),和Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism(2019)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问