- 简介本文介绍了一种针对训练大型语言模型(LLMs)的长序列的高效序列级一前一后(1F1B)管道调度方法,名为Seq1F1B。当前管道并行方法在LLMs的训练序列长度扩展到32k甚至128k时面临严重的瓶颈,包括高内存占用和大量的管道泡沫,极大地阻碍了模型的可扩展性和训练吞吐量。Seq1F1B将批级可调度单元分解为更细的序列级单元,减小了泡沫大小和内存占用,从而提高了内存效率和训练吞吐量。与竞争的管道基线方法(如Megatron 1F1B管道并行性)相比,我们的方法在使用更少的内存占用的情况下实现了更高的训练吞吐量。值得注意的是,Seq1F1B使用64个NVIDIA A100 GPU在长度为64k的序列上高效地训练了一个具有30B参数的LLM,而不需要重新计算策略,这是现有方法无法实现的。我们的源代码基于Megatron-LM,并且现在可在https://github.com/MayDomine/Seq1F1B.git上获得。
- 图表
- 解决问题本论文试图解决大语言模型的训练中存在的内存占用和训练吞吐量低下的问题,提出了一种名为Seq1F1B的序列级一前一后(1F1B)管道调度方法。
- 关键思路Seq1F1B将批级可调度单元分解为更细的序列级单元,从而减少泡沫大小和内存占用,并设计了一种计算策略来划分输入序列以减轻副作用。相比竞争的管道基准方法,Seq1F1B在更少的内存占用下实现了更高的训练吞吐量。
- 其它亮点论文通过实验表明,Seq1F1B能够高效地在长序列上训练大语言模型,使用64个NVIDIA A100 GPU训练一个具有30B参数的LLM,不需要重新计算策略。此外,论文基于Megatron-LM的源代码,代码已经开源。
- 在这个领域中,最近的相关研究包括Megatron 1F1B管道并行、GPipe和PipeDream等。
沙发等你来抢
去评论
评论
沙发等你来抢