Demystifying the Communication Characteristics for Distributed Transformer Models

2024年08月19日
  • 简介
    深度学习(DL)模型基于transformer架构已经在许多DL应用中实现了革命性的进展,例如大型语言模型(LLMs),视觉transformers,音频生成和时间序列预测。这一进展的许多原因是由分布式训练推动的,然而分布式通信仍然是训练进展的一个重要瓶颈。本文研究了transformer模型的通信行为,即在transformers的多节点/多GPU DL训练中使用的不同并行方案如何通信数据。我们以GPT为基础的语言模型作为transformer架构的案例研究,因为它们是普遍存在的。我们使用分析模型验证了从我们的通信日志中获得的实证结果。从高层次上看,我们的分析揭示了进一步优化小消息点对点通信的需求,序列长度,每个GPU吞吐量,模型大小和使用的优化之间的相关性,以及在框架和HPC中间件设计和优化中可能需要进一步引导优化的地方。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决transformer模型在分布式训练中通信瓶颈的问题。同时,分析不同并行方案在transformer中的通信行为。
  • 关键思路
    本文通过对基于GPT的语言模型的案例研究,验证了小消息点对点通信需要进一步优化,序列长度、每个GPU的吞吐量、模型大小和优化之间存在相关性,并提出了进一步优化框架和HPC中间件设计的方向。
  • 其它亮点
    本文分析了transformer模型的通信行为,提出了优化方案,并验证了实验结果。实验使用了GPT-2和GPT-3数据集,并提供了实验代码和通信日志。
  • 相关研究
    与本文相关的研究包括《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问