AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes

2024年04月15日
  • 简介
    许多分布式训练技术,如参数服务器和AllReduce,已被提出来利用越来越大的数据和丰富的特征。然而,由于资源争用和硬件异构性,分布式训练经常出现滞后现象,这严重影响了训练效率。以前的工作只解决了部分滞后问题,无法在实践中自适应地解决各种滞后问题。此外,使用系统框架解决所有滞后问题具有挑战性,因为不同的滞后问题需要不同的数据分配和容错机制。因此,本文提出了一个统一的分布式训练框架AntDT(Ant分布式训练框架),以自适应地解决滞后问题。首先,该框架由四个组件组成,包括有状态动态数据分片服务、监视器、控制器和代理。这些组件协同工作,高效地分配工作量,并提供一系列预定义的滞后缓解方法,具有容错能力,从而隐藏了数据分配和容错处理的杂乱细节。其次,该框架提供了高度的灵活性,允许根据集群的具体情况定制滞后缓解解决方案。利用这种灵活性,我们引入了两种滞后缓解解决方案,即AntDT-ND用于非专用集群和AntDT-DD用于专用集群,作为解决各种类型滞后问题的实际示例。通过全面的实验和工业部署统计,AntDT的训练效率比其他SOTA方法高出3倍以上。此外,在支付宝主页推荐场景中,使用AntDT将排名模型的训练持续时间从27.8小时缩短到仅5.4小时。
  • 作者讲解
  • 图表
  • 解决问题
    解决分布式训练中straggler问题,提高训练效率。
  • 关键思路
    提出一种统一的分布式训练框架AntDT,包含四个组件,使用动态数据分片服务、监控器、控制器和代理协同工作,提供多种预定义的straggler缓解方法,具有高度的灵活性,可以根据集群的具体情况进行自定义。
  • 其它亮点
    AntDT框架在实验和工业部署中表现出比其他SOTA方法高3倍以上的训练效率。在Alipay的主页推荐场景中,使用AntDT将排名模型的训练持续时间从27.8小时缩短到仅5.4小时。
  • 相关研究
    相关研究包括Parameter Server和AllReduce等分布式训练技术,以及其他一些straggler缓解方法,如Elastic SGD和Straggler-aware SGD等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问