Demystifying the Communication Characteristics for Distributed Transformer Models

简介

深度学习（DL）模型基于transformer架构已经在许多DL应用中实现了革命性的进展，例如大型语言模型（LLMs），视觉transformers，音频生成和时间序列预测。这一进展的许多原因是由分布式训练推动的，然而分布式通信仍然是训练进展的一个重要瓶颈。本文研究了transformer模型的通信行为，即在transformers的多节点/多GPU DL训练中使用的不同并行方案如何通信数据。我们以GPT为基础的语言模型作为transformer架构的案例研究，因为它们是普遍存在的。我们使用分析模型验证了从我们的通信日志中获得的实证结果。从高层次上看，我们的分析揭示了进一步优化小消息点对点通信的需求，序列长度，每个GPU吞吐量，模型大小和使用的优化之间的相关性，以及在框架和HPC中间件设计和优化中可能需要进一步引导优化的地方。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决transformer模型在分布式训练中通信瓶颈的问题。同时，分析不同并行方案在transformer中的通信行为。
关键思路

本文通过对基于GPT的语言模型的案例研究，验证了小消息点对点通信需要进一步优化，序列长度、每个GPU的吞吐量、模型大小和优化之间存在相关性，并提出了进一步优化框架和HPC中间件设计的方向。
其它亮点

本文分析了transformer模型的通信行为，提出了优化方案，并验证了实验结果。实验使用了GPT-2和GPT-3数据集，并提供了实验代码和通信日志。
相关研究

与本文相关的研究包括《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。

Demystifying the Communication Characteristics for Distributed Transformer Models

提问交流

提问交流