- 简介大规模模型的开发需要大量的计算资源。例如,GPT-4模型(1.8万亿参数)需要25000个A100 GPU进行训练。使用一种类型的GPU加速器构建大规模集群是一项挑战。使用多种类型的GPU加速器构建集群是解决GPU加速器不足问题的有效方法。然而,现有的大规模模型分布式训练系统仅支持同构GPU加速器,而不支持异构GPU加速器。为了解决这个问题,本文提出了一种支持异构GPU加速器的大规模模型混合并行分布式训练系统。它引入了分布式统一通信器来实现异构GPU加速器之间的通信,分布式性能预测器和自动混合并行模块,以使用异构GPU加速器高效地开发和训练模型。与同构GPU加速器的分布式训练系统相比,我们的系统可以支持六种不同的异构GPU加速器组合,并且异构GPU加速器的最佳性能已经达到同构GPU加速器理论上限性能的至少90%。
-
- 图表
- 解决问题提出了一个分布式训练系统,支持异构GPU加速器的大规模模型训练,解决了当前分布式训练系统只支持同构GPU加速器的问题。
- 关键思路引入了分布式统一通信器、分布式性能预测器和自动混合并行模块,以实现异构GPU加速器之间的通信和高效的模型训练。
- 其它亮点该系统支持六种不同的异构GPU加速器组合,并且异构GPU加速器的最优性能已经达到同构GPU加速器理论上限性能的90%以上。
- 在这个领域中,最近的相关研究包括:《Scalable Multi-Fidelity Training of Neural Networks for Video Classification》、《Efficient Large-Scale Language Model Training on GPU Clusters with Chunked Backpropagation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流