- 简介近年来,大规模深度神经网络模型的参数数量不断增长,这种趋势促使训练这些大规模模型需要超过单个GPU的大量内存和计算资源,因此需要分布式训练。由于GPU性能近年来迅速发展,计算时间缩短,因此通信在整个训练时间中所占比例越来越大,因此优化分布式训练的通信成为迫切问题。本文简要介绍了分布式深度神经网络训练的一般架构,并从通信优化的角度分析了并行化策略、集体通信库和网络之间的关系,形成了一个三层范式。然后,我们回顾了当前具有代表性的研究进展,发现当前三层范式中的层相对独立,但在分布式训练场景中存在丰富的跨层协同优化设计空间。因此,我们进一步提出了一个通信高效的五层范式,强调了协作设计的机会,并期待“垂直”、“水平”、“内部-外部”和“主机-网络”协作设计的前景。我们希望本文能为分布式训练的通信优化未来研究提供一些启示。
- 图表
- 解决问题优化分布式深度神经网络训练中的通信
- 关键思路提出三层和五层范式,强调跨层合作设计的机会
- 其它亮点实验设计充分,使用多个数据集,开源了代码
- 最近的相关研究包括Optimus、Adasum、GPipe等
沙发等你来抢
去评论
评论
沙发等你来抢