HetHub: A Heterogeneous distributed hybrid training system for large-scale models

2024年05月25日
  • 简介
    大规模模型的开发需要大量的计算资源。例如,GPT-4模型(1.8万亿参数)需要25000个A100 GPU进行训练。使用一种类型的GPU加速器构建大规模集群是一项挑战。使用多种类型的GPU加速器构建集群是解决GPU加速器不足问题的有效方法。然而,现有的大规模模型分布式训练系统仅支持同构GPU加速器,而不支持异构GPU加速器。为了解决这个问题,本文提出了一种支持异构GPU加速器的大规模模型混合并行分布式训练系统。它引入了分布式统一通信器来实现异构GPU加速器之间的通信,分布式性能预测器和自动混合并行模块,以使用异构GPU加速器高效地开发和训练模型。与同构GPU加速器的分布式训练系统相比,我们的系统可以支持六种不同的异构GPU加速器组合,并且异构GPU加速器的最佳性能已经达到同构GPU加速器理论上限性能的至少90%。
  • 作者讲解
  • 图表
  • 解决问题
    提出了一个分布式训练系统,支持异构GPU加速器的大规模模型训练,解决了当前分布式训练系统只支持同构GPU加速器的问题。
  • 关键思路
    引入了分布式统一通信器、分布式性能预测器和自动混合并行模块,以实现异构GPU加速器之间的通信和高效的模型训练。
  • 其它亮点
    该系统支持六种不同的异构GPU加速器组合,并且异构GPU加速器的最优性能已经达到同构GPU加速器理论上限性能的90%以上。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Scalable Multi-Fidelity Training of Neural Networks for Video Classification》、《Efficient Large-Scale Language Model Training on GPU Clusters with Chunked Backpropagation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问