- 简介将大型模型应用于语言生成、视频生成和多模态任务等领域时,需要进行高效的序列并行计算。然而,现有的序列并行计算方法都假设只有一个序列维度,并不能适应多维Transformer架构,这些架构在不同维度上执行注意力计算。本文介绍了一种名为动态序列并行计算(DSP)的新方法,用于实现多维Transformer模型的高效序列并行计算。其关键思想是根据当前计算阶段动态切换并行计算的维度,利用多维注意力的潜在特性。这种动态维度切换允许进行序列并行计算,与将传统的单维度并行计算应用于多维模型相比,通信开销最小。实验结果表明,与之前的序列并行计算方法相比,DSP可以将端到端吞吐量提高42.0%到216.8%。
- 图表
- 解决问题如何在多维Transformer模型中实现有效的序列并行计算,以提高语言生成、视频生成和多模态任务等应用的性能?
- 关键思路动态序列并行(Dynamic Sequence Parallelism,DSP):根据当前计算阶段动态切换并行计算的维度,利用多维注意力的潜在特性,从而实现最小化通信开销的序列并行计算。
- 其它亮点实验结果显示,相对于现有的序列并行计算方法,DSP可以将端到端吞吐量提高42.0%到216.8%。论文使用了多个数据集进行了实验,代码已经开源。
- 最近在这个领域中,还有一些相关的研究,如《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》和《Scaling Laws for Neural Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢