Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities

简介

近年来，大规模深度神经网络模型的参数数量不断增长，这种趋势促使训练这些大规模模型需要超过单个GPU的大量内存和计算资源，因此需要分布式训练。由于GPU性能近年来迅速发展，计算时间缩短，因此通信在整个训练时间中所占比例越来越大，因此优化分布式训练的通信成为迫切问题。本文简要介绍了分布式深度神经网络训练的一般架构，并从通信优化的角度分析了并行化策略、集体通信库和网络之间的关系，形成了一个三层范式。然后，我们回顾了当前具有代表性的研究进展，发现当前三层范式中的层相对独立，但在分布式训练场景中存在丰富的跨层协同优化设计空间。因此，我们进一步提出了一个通信高效的五层范式，强调了协作设计的机会，并期待“垂直”、“水平”、“内部-外部”和“主机-网络”协作设计的前景。我们希望本文能为分布式训练的通信优化未来研究提供一些启示。

图表

解决问题

优化分布式深度神经网络训练中的通信

关键思路

提出三层和五层范式，强调跨层合作设计的机会

其它亮点

实验设计充分，使用多个数据集，开源了代码

Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities

评论