HetHub: A Heterogeneous distributed hybrid training system for large-scale models

简介

大规模模型的开发需要大量的计算资源。例如，GPT-4模型（1.8万亿参数）需要25000个A100 GPU进行训练。使用一种类型的GPU加速器构建大规模集群是一项挑战。使用多种类型的GPU加速器构建集群是解决GPU加速器不足问题的有效方法。然而，现有的大规模模型分布式训练系统仅支持同构GPU加速器，而不支持异构GPU加速器。为了解决这个问题，本文提出了一种支持异构GPU加速器的大规模模型混合并行分布式训练系统。它引入了分布式统一通信器来实现异构GPU加速器之间的通信，分布式性能预测器和自动混合并行模块，以使用异构GPU加速器高效地开发和训练模型。与同构GPU加速器的分布式训练系统相比，我们的系统可以支持六种不同的异构GPU加速器组合，并且异构GPU加速器的最佳性能已经达到同构GPU加速器理论上限性能的至少90%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出了一个分布式训练系统，支持异构GPU加速器的大规模模型训练，解决了当前分布式训练系统只支持同构GPU加速器的问题。
关键思路

引入了分布式统一通信器、分布式性能预测器和自动混合并行模块，以实现异构GPU加速器之间的通信和高效的模型训练。
其它亮点

该系统支持六种不同的异构GPU加速器组合，并且异构GPU加速器的最优性能已经达到同构GPU加速器理论上限性能的90%以上。
相关研究

在这个领域中，最近的相关研究包括：《Scalable Multi-Fidelity Training of Neural Networks for Video Classification》、《Efficient Large-Scale Language Model Training on GPU Clusters with Chunked Backpropagation》等。

HetHub: A Heterogeneous distributed hybrid training system for large-scale models

提问交流

提问交流