GRAWA: Gradient-based Weighted Averaging for Distributed Training of Deep Learning Models

2024年03月07日
  • 简介
    我们研究了在时间受限的环境下深度学习模型的分布式训练。我们提出了一种新的算法,定期将工作节点拉向中心变量,该中心变量是工作节点的加权平均值,其中权重与工作节点的梯度范数成反比,以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法,分别称为模型级和层级梯度加权平均(MGRAWA和LGRAWA),它们在加权方案方面有所不同,一种是针对整个模型进行的,另一种是逐层应用的。在理论方面,我们证明了所提出的方法在凸和非凸设置中的收敛保证。然后,我们通过实验证明了我们的算法通过实现更快的收敛速度和恢复更好的质量和更平坦的局部最优解来优于竞争方法。我们还进行了消融研究,以分析所提出的算法在更拥挤的分布式训练环境中的可扩展性。最后,我们报告了我们的方法相对于现有基线需要更少的通信和分布式更新。
  • 图表
  • 解决问题
    本论文旨在解决在时间受限的环境下分布式训练深度学习模型的问题。论文提出了一种新算法,通过定期将工作人员拉向计算出的中心变量,该中心变量是工作人员的加权平均值,其中权重与工作人员的梯度范数成反比,以优先恢复优化景观中的平坦区域。
  • 关键思路
    论文提出了两种异步变量的算法(MGRAWA和LGRAWA),分别应用于整个模型和逐层应用的权重方案。论文在凸和非凸设置下证明了所提出方法的收敛保证。
  • 其它亮点
    论文实验表明,所提出的算法在收敛速度、质量和平坦局部最优方面优于竞争方法。论文还进行了消融研究,分析了所提出算法在更拥挤的分布式训练环境中的可扩展性,并报告了所提出方法与现有基线相比需要更少的通信和分布式更新。
  • 相关研究
    最近的相关研究包括分布式深度学习、异步随机梯度下降、梯度平均化和梯度裁剪等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论