DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

2024年03月15日
  • 简介
    将大型模型应用于语言生成、视频生成和多模态任务等领域时,需要进行高效的序列并行计算。然而,现有的序列并行计算方法都假设只有一个序列维度,并不能适应多维Transformer架构,这些架构在不同维度上执行注意力计算。本文介绍了一种名为动态序列并行计算(DSP)的新方法,用于实现多维Transformer模型的高效序列并行计算。其关键思想是根据当前计算阶段动态切换并行计算的维度,利用多维注意力的潜在特性。这种动态维度切换允许进行序列并行计算,与将传统的单维度并行计算应用于多维模型相比,通信开销最小。实验结果表明,与之前的序列并行计算方法相比,DSP可以将端到端吞吐量提高42.0%到216.8%。
  • 图表
  • 解决问题
    如何在多维Transformer模型中实现有效的序列并行计算,以提高语言生成、视频生成和多模态任务等应用的性能?
  • 关键思路
    动态序列并行(Dynamic Sequence Parallelism,DSP):根据当前计算阶段动态切换并行计算的维度,利用多维注意力的潜在特性,从而实现最小化通信开销的序列并行计算。
  • 其它亮点
    实验结果显示,相对于现有的序列并行计算方法,DSP可以将端到端吞吐量提高42.0%到216.8%。论文使用了多个数据集进行了实验,代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》和《Scaling Laws for Neural Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论