AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes

简介

许多分布式训练技术，如参数服务器和AllReduce，已被提出来利用越来越大的数据和丰富的特征。然而，由于资源争用和硬件异构性，分布式训练经常出现滞后现象，这严重影响了训练效率。以前的工作只解决了部分滞后问题，无法在实践中自适应地解决各种滞后问题。此外，使用系统框架解决所有滞后问题具有挑战性，因为不同的滞后问题需要不同的数据分配和容错机制。因此，本文提出了一个统一的分布式训练框架AntDT（Ant分布式训练框架），以自适应地解决滞后问题。首先，该框架由四个组件组成，包括有状态动态数据分片服务、监视器、控制器和代理。这些组件协同工作，高效地分配工作量，并提供一系列预定义的滞后缓解方法，具有容错能力，从而隐藏了数据分配和容错处理的杂乱细节。其次，该框架提供了高度的灵活性，允许根据集群的具体情况定制滞后缓解解决方案。利用这种灵活性，我们引入了两种滞后缓解解决方案，即AntDT-ND用于非专用集群和AntDT-DD用于专用集群，作为解决各种类型滞后问题的实际示例。通过全面的实验和工业部署统计，AntDT的训练效率比其他SOTA方法高出3倍以上。此外，在支付宝主页推荐场景中，使用AntDT将排名模型的训练持续时间从27.8小时缩短到仅5.4小时。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决分布式训练中straggler问题，提高训练效率。

关键思路

提出一种统一的分布式训练框架AntDT，包含四个组件，使用动态数据分片服务、监控器、控制器和代理协同工作，提供多种预定义的straggler缓解方法，具有高度的灵活性，可以根据集群的具体情况进行自定义。

其它亮点

AntDT框架在实验和工业部署中表现出比其他SOTA方法高3倍以上的训练效率。在Alipay的主页推荐场景中，使用AntDT将排名模型的训练持续时间从27.8小时缩短到仅5.4小时。

AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes

提问交流

提问交流