On the Performance and Memory Footprint of Distributed Training: An Empirical Study on Transformers

简介

Transformer模型已成为解决各种跨学科挑战的有效解决方案。Transformer架构的部署受到其广泛的计算和存储需求的严重阻碍，需要依赖于先进的高效分布式训练方法。以往的研究已经深入探讨了分布式训练所涉及的性能瓶颈，旨在揭示这些瓶颈并提出优化方向。然而，这类分析经常忽略了Transformer模型的三个独特方面：专门的架构、对各种分布式策略的依赖以及需要平衡计算和存储开销。本文旨在通过理论分析和实证研究，全面探讨分布式训练Transformer模型所固有的性能瓶颈，提供一个针对Transformer独特方面量身定制的分析框架，以便全面评估模型架构、分布式策略和资源消耗。基于这个分析框架，我们进行了理论性能的比较分析，并进一步系统地探讨了各种分布式训练策略在实际场景中的表现。大部分实验结果都可以从分析框架中得出的理论结果得到很好的解释。值得注意的是，我们的发现表明，对于Transformer模型，流水线并行优于数据并行。此外，我们还揭示了一些意外的结果，例如流水线并行中次优模型分割可能导致总内存开销增加的潜在风险。此外，我们还强调了通信块大小和等待时间对于进一步提高性能的重要性。
图表
解决问题

本论文旨在解决Transformer模型在分布式训练中所面临的性能瓶颈问题，包括计算和内存需求高、依赖于各种分布式策略和需要平衡计算和内存开销等问题。
关键思路

论文提出了一个专门针对Transformer模型的分析框架，通过理论分析和实证研究，系统地探索了不同的分布式训练策略，发现流水线并行优于数据并行，并强调了通信块大小和等待时间对性能的重要性。
其它亮点

论文的实验结果可以很好地解释由分析框架得出的理论结果，还发现了一些意外的结果，如流水线并行中子模型划分不当可能导致总内存开销增加。此外，论文还强调了通信块大小和等待时间对性能的重要性。
相关研究

最近的相关研究包括分布式训练性能瓶颈的分析和优化方向，但这些研究往往忽略了Transformer模型的特殊结构、依赖于各种分布式策略以及需要平衡计算和内存开销等独特方面。

On the Performance and Memory Footprint of Distributed Training: An Empirical Study on Transformers

评论