- 简介大规模分布式训练在生产数据中心中构成了一个由网络通信瓶颈所限制的挑战性工作负载。作为回应,主要的工业玩家(例如,Ultra Ethernet Consortium)和部分学术界几乎一致认为,数据包喷洒是提高大规模分布式训练工作负载性能的必要手段。 在本文中,我们挑战了这一普遍信念,并提出了一个问题:单路径传输可以达到最优多路径传输的近似程度有多高?我们证明,单路径传输(从网卡的角度)是足够的,并且可以在分布式训练中的叶脊拓扑上表现得几乎和理想的多路径传输与数据包喷洒一样好。我们的断言基于四个关于集体通信模式驱动的工作负载的关键观察:(i)集合内的流几乎同时开始,(ii)流大小几乎相等,(iii)集合完成时间比单个流完成时间更重要,(iv)流可以在到达时分割。我们在分析中证明,使用最小的流分割(在应用层)的单路径传输在最大拥塞方面等同于理想的多路径传输与数据包喷洒。我们的初步评估支持我们的论点。本文提出了一个为大规模分布式训练量身定制下一代传输协议的替代议程。
- 图表
- 解决问题验证单路径传输是否足以满足大规模分布式训练的需求,是否可以替代多路径传输中的数据包喷洒?
- 关键思路论文通过四个关键观察,证明单路径传输在应用层进行最小流分裂的情况下,可以达到与多路径传输数据包喷洒相同的最大拥塞程度,从而提出下一代面向大规模分布式训练的传输协议应该优先考虑单路径传输。
- 其它亮点论文的实验结果支持了他们的观点,同时提出了一些值得进一步探究的问题,如何在更加复杂的网络拓扑下进行验证,如何在更加异构的网络环境下进行验证等。
- 最近的相关研究包括Ultra Ethernet Consortium推出的多路径传输协议,以及一些关于数据包喷洒的研究,如Efficient Data Spraying for Performance Improvement of Large-Scale Distributed Deep Learning等。
沙发等你来抢
去评论
评论
沙发等你来抢