- 简介稀疏激活的专家混合(MoE)层已经在扩大大规模基础模型的模型规模方面找到了实际应用,而计算需求仅呈亚线性增长。尽管混合并行范式(如模型并行、专家并行和专家分片并行,即MP+EP+ESP)已经被广泛采用来支持GPU集群上的MoE模型训练,但由这些并行范式引入的通信成本影响了训练效率。为了解决这个限制,我们提出了Parm系统,通过设计两个专门的任务安排来加速MP+EP+ESP训练。所提出的任务安排消除了冗余的计算和通信,并使单个节点内和节点间通信之间重叠,最终减少了整体训练时间。由于这两个任务安排不是互斥的,我们提供了全面的理论分析,并推导出自动而准确的解决方案,以确定在不同场景下应该应用哪个任务安排。在8-GPU服务器和32-GPU集群上的实验结果表明,Parm优于最先进的MoE训练系统DeepSpeed-MoE,在1296个手动配置的MoE层上实现了1.13倍到5.77倍的加速,并在基于BERT和GPT-2的两个真实MoE模型上实现了约3倍的改进。
- 图表
- 解决问题本文旨在解决混合并行模式下Mixture-of-Expert (MoE)模型训练的通信成本问题,提出了一种加速MP+EP+ESP训练的系统Parm。
- 关键思路Parm系统通过设计两个专门的通信任务调度来加速MoE模型的训练,消除冗余计算和通信,并允许节点内和节点间通信之间的重叠,从而减少总体训练时间。
- 其它亮点实验结果表明,Parm系统在1296个手动配置的MoE层和基于BERT和GPT-2的两个真实世界MoE模型上,比最先进的MoE训练系统DeepSpeed-MoE快1.13倍到5.77倍,大约提高了3倍。
- 在这个领域中,最近的相关研究包括DeepSpeed-MoE、Megatron-LM、GPipe等。
沙发等你来抢
去评论
评论
沙发等你来抢