MLTCP: Congestion Control for DNN Training

简介

我们提出了MLTCP技术，这是一种增强现有拥塞控制算法以加速在共享GPU集群中进行的DNN训练作业的技术。MLTCP使竞争网络带宽的作业的通信阶段相互交错，从而有效利用网络。 MLTCP的核心是一个非常简单的原理，基于一个关键的概念性洞察：DNN训练流应根据每个训练迭代发送的字节数来调整其拥塞窗口大小。我们展示了将这个原则集成到今天的拥塞控制协议中是很简单的：通过向Reno、CUBIC或DCQCN添加30-60行代码，MLTCP可以在几个训练迭代内将不同作业的流稳定到交错状态，而不管竞争流的数量或每个流的开始时间。我们对流行的DNN训练作业进行的实验表明，启用MLTCP可以将平均和99th百分位训练迭代时间加速2倍和4倍，分别。
图表
解决问题

MLTCP试图解决在共享GPU集群中加速DNN训练作业时，由于网络带宽竞争导致通信阶段效率低下的问题。
关键思路

MLTCP的关键思路是基于一个概念性的洞察：DNN训练流应该根据每个训练迭代发送的字节数来扩展其拥塞窗口大小，以实现流之间的交错，从而有效利用网络。
其它亮点

通过在Reno、CUBIC或DCQCN中添加30-60行代码，MLTCP可以将不同作业的流稳定地交错在一起，而不管竞争流的数量或每个流的启动时间如何。实验表明，启用MLTCP可以将平均和99th百分位训练迭代时间加速高达2倍和4倍。
相关研究

在这个领域中，还有一些相关研究，如Delay-Gradient和Sprayer等。

MLTCP: Congestion Control for DNN Training

评论