Optimizing Distributed Training on Frontier for Large Language Models

简介

本文介绍了大型语言模型（LLMs）在各种下游应用中的成功应用，以及最近关于损失缩放的研究表明相较于较小的模型，更大型的LLMs表现出更好的性能。然而，训练具有数十亿参数的LLMs面临着巨大的挑战，需要大量的计算资源。本研究探讨了有效的分布式训练策略，以从Frontier中提取这些计算。我们使用不同的模型和数据并行训练技术，如张量并行、流水线并行和分片数据并行，来促进在Frontier上训练万亿参数的模型。我们通过实证评估这些技术及其相关参数，以确定它们对内存占用、通信延迟和GPU计算效率的影响。我们分析了这些技术之间的复杂相互作用，并找到了一种策略来将它们结合起来以实现高吞吐量。通过超参数调整，我们已经确定了训练不同大小的大型LLMs的有效策略。对于220亿、1750亿和1万亿个参数，我们分别实现了$38.38\%$、$36.14\%$和$31.96\%$的GPU吞吐量。对于训练1750亿个参数模型和1万亿个参数模型，我们在1024和3072 MI250X GPU上实现了$100\%$的弱扩展效率。同时，我们还实现了这两个模型的强扩展效率为$89\%$和$87\%$。
图表
解决问题

本论文旨在探索高效的分布式训练策略，以从Frontier超级计算机中提取计算能力，训练具有数十亿参数的大型语言模型。
关键思路

论文使用张量并行、管道并行和分片数据并行等模型和数据并行训练技术，通过超参数调整将它们相结合，以实现高吞吐量和高效率。
其它亮点

论文在22亿、1750亿和1万亿参数的大型语言模型上进行了实验，并获得了GPU吞吐量分别为38.38％、36.14％和31.96％。在训练1750亿参数模型和1万亿参数模型时，分别在1024和3072个MI250X GPU上实现了100％的弱扩展效率。此外，论文还分析了这些技术之间的复杂相互作用，并提出了高效的训练策略。
相关研究

与本论文相关的研究包括大型语言模型的训练和优化，以及分布式训练技术的应用。例如，GPT-3和Turing-NLG等大型语言模型已经被广泛研究和使用。此外，一些研究专注于使用不同的训练技术来提高大型语言模型的训练效率和性能，例如混合精度训练和模型并行训练。

Optimizing Distributed Training on Frontier for Large Language Models

评论