- 简介我们提出了MLTCP技术,这是一种增强现有拥塞控制算法以加速在共享GPU集群中进行的DNN训练作业的技术。MLTCP使竞争网络带宽的作业的通信阶段相互交错,从而有效利用网络。 MLTCP的核心是一个非常简单的原理,基于一个关键的概念性洞察:DNN训练流应根据每个训练迭代发送的字节数来调整其拥塞窗口大小。我们展示了将这个原则集成到今天的拥塞控制协议中是很简单的:通过向Reno、CUBIC或DCQCN添加30-60行代码,MLTCP可以在几个训练迭代内将不同作业的流稳定到交错状态,而不管竞争流的数量或每个流的开始时间。我们对流行的DNN训练作业进行的实验表明,启用MLTCP可以将平均和99th百分位训练迭代时间加速2倍和4倍,分别。
- 图表
- 解决问题MLTCP试图解决在共享GPU集群中加速DNN训练作业时,由于网络带宽竞争导致通信阶段效率低下的问题。
- 关键思路MLTCP的关键思路是基于一个概念性的洞察:DNN训练流应该根据每个训练迭代发送的字节数来扩展其拥塞窗口大小,以实现流之间的交错,从而有效利用网络。
- 其它亮点通过在Reno、CUBIC或DCQCN中添加30-60行代码,MLTCP可以将不同作业的流稳定地交错在一起,而不管竞争流的数量或每个流的启动时间如何。实验表明,启用MLTCP可以将平均和99th百分位训练迭代时间加速高达2倍和4倍。
- 在这个领域中,还有一些相关研究,如Delay-Gradient和Sprayer等。
沙发等你来抢
去评论
评论
沙发等你来抢