- 简介将多维Transformer扩展到长序列在各个领域中都是不可或缺的。然而,这种序列的大量内存需求和缓慢的速度需要序列并行处理。所有现有的方法都属于嵌入式序列并行处理范畴,这些方法仅限于在单个序列维度上进行分片,从而引入了显著的通信开销。然而,多维Transformer的性质涉及到跨多个序列维度的独立计算。为此,我们提出了动态序列并行处理(DSP)作为序列并行处理的一种新抽象。DSP根据计算阶段动态切换所有序列中的并行维度,并采用高效的重新分片策略。DSP在通信成本降低、模块适应性和实现简易性方面提供了显著的优势,并且具有最小的约束条件。实验评估表明,DSP的吞吐量显著提高,范围从32.2%到10倍,通信量少于25%,优于现有的嵌入式序列并行处理方法。
- 图表
- 解决问题提高多维Transformer模型的序列并行效率,减少通信开销和内存需求。
- 关键思路提出动态序列并行(Dynamic Sequence Parallelism,DSP)的新方法,动态切换并行维度,实现跨多个序列维度的独立计算,通过高效的resharding策略降低通信成本。
- 其它亮点DSP方法在吞吐量上比现有的嵌入式序列并行方法提高了32.2%至10倍,通信量减少不到25%。实验使用了WMT14和En-De数据集,并开源了代码。
- 与本文相关的研究包括:Megatron-LM、GPipe、PipeDream等。
沙发等你来抢
去评论
评论
沙发等你来抢