DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

简介

将大型模型应用于语言生成、视频生成和多模态任务等领域时，需要进行高效的序列并行计算。然而，现有的序列并行计算方法都假设只有一个序列维度，并不能适应多维Transformer架构，这些架构在不同维度上执行注意力计算。本文介绍了一种名为动态序列并行计算（DSP）的新方法，用于实现多维Transformer模型的高效序列并行计算。其关键思想是根据当前计算阶段动态切换并行计算的维度，利用多维注意力的潜在特性。这种动态维度切换允许进行序列并行计算，与将传统的单维度并行计算应用于多维模型相比，通信开销最小。实验结果表明，与之前的序列并行计算方法相比，DSP可以将端到端吞吐量提高42.0%到216.8%。
图表
解决问题

如何在多维Transformer模型中实现有效的序列并行计算，以提高语言生成、视频生成和多模态任务等应用的性能？
关键思路

动态序列并行（Dynamic Sequence Parallelism，DSP）：根据当前计算阶段动态切换并行计算的维度，利用多维注意力的潜在特性，从而实现最小化通信开销的序列并行计算。
其它亮点

实验结果显示，相对于现有的序列并行计算方法，DSP可以将端到端吞吐量提高42.0%到216.8%。论文使用了多个数据集进行了实验，代码已经开源。
相关研究

最近在这个领域中，还有一些相关的研究，如《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》和《Scaling Laws for Neural Language Models》等。

DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

评论