MLTCP: Congestion Control for DNN Training

2024年02月14日
  • 简介
    我们提出了MLTCP技术,这是一种增强现有拥塞控制算法以加速在共享GPU集群中进行的DNN训练作业的技术。MLTCP使竞争网络带宽的作业的通信阶段相互交错,从而有效利用网络。 MLTCP的核心是一个非常简单的原理,基于一个关键的概念性洞察:DNN训练流应根据每个训练迭代发送的字节数来调整其拥塞窗口大小。我们展示了将这个原则集成到今天的拥塞控制协议中是很简单的:通过向Reno、CUBIC或DCQCN添加30-60行代码,MLTCP可以在几个训练迭代内将不同作业的流稳定到交错状态,而不管竞争流的数量或每个流的开始时间。我们对流行的DNN训练作业进行的实验表明,启用MLTCP可以将平均和99th百分位训练迭代时间加速2倍和4倍,分别。
  • 图表
  • 解决问题
    MLTCP试图解决在共享GPU集群中加速DNN训练作业时,由于网络带宽竞争导致通信阶段效率低下的问题。
  • 关键思路
    MLTCP的关键思路是基于一个概念性的洞察:DNN训练流应该根据每个训练迭代发送的字节数来扩展其拥塞窗口大小,以实现流之间的交错,从而有效利用网络。
  • 其它亮点
    通过在Reno、CUBIC或DCQCN中添加30-60行代码,MLTCP可以将不同作业的流稳定地交错在一起,而不管竞争流的数量或每个流的启动时间如何。实验表明,启用MLTCP可以将平均和99th百分位训练迭代时间加速高达2倍和4倍。
  • 相关研究
    在这个领域中,还有一些相关研究,如Delay-Gradient和Sprayer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论