Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities

2024年03月12日
  • 简介
    近年来,大规模深度神经网络模型的参数数量不断增长,这种趋势促使训练这些大规模模型需要超过单个GPU的大量内存和计算资源,因此需要分布式训练。由于GPU性能近年来迅速发展,计算时间缩短,因此通信在整个训练时间中所占比例越来越大,因此优化分布式训练的通信成为迫切问题。本文简要介绍了分布式深度神经网络训练的一般架构,并从通信优化的角度分析了并行化策略、集体通信库和网络之间的关系,形成了一个三层范式。然后,我们回顾了当前具有代表性的研究进展,发现当前三层范式中的层相对独立,但在分布式训练场景中存在丰富的跨层协同优化设计空间。因此,我们进一步提出了一个通信高效的五层范式,强调了协作设计的机会,并期待“垂直”、“水平”、“内部-外部”和“主机-网络”协作设计的前景。我们希望本文能为分布式训练的通信优化未来研究提供一些启示。
  • 图表
  • 解决问题
    优化分布式深度神经网络训练中的通信
  • 关键思路
    提出三层和五层范式,强调跨层合作设计的机会
  • 其它亮点
    实验设计充分,使用多个数据集,开源了代码
  • 相关研究
    最近的相关研究包括Optimus、Adasum、GPipe等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论