- 简介专家并行性已被引入作为一种策略,用于将稀疏门控混合专家(MoE)模型的计算工作负载分布到多个计算设备上,从而促进这些越来越大规模模型的执行。然而,专家并行性固有的全互联通信构成了一个重要的开销,降低了MoE模型的效率。当前的优化方法提供了一些缓解,但它们受到通信和计算操作的顺序相互依赖的限制。为了解决这个限制,我们提出了一种新的快捷连接MoE架构,采用重叠并行策略,称为ScMoE,有效地将通信与其传统序列分离,允许计算和通信之间有70%到100%的重叠。与普遍使用的前2个MoE架构相比,ScMoE在我们的PCIe和NVLink硬件环境中展示出30%和11%的训练速度提高,以及40%和15%的推理提高,在这些环境中,通信占总MoE时间消耗的60%和15%。另一方面,广泛的实验和理论分析表明,ScMoE不仅在视觉和语言任务中实现了可比较的模型质量,而且在某些情况下还超过了现有方法。
- 图表
- 解决问题论文旨在解决sparsely-gated mixture-of-experts (MoE)模型中expert parallelism所带来的高通信开销问题,通过提出一种shortcut-connected MoE architecture with overlapping parallel strategy (ScMoE)的新架构来解决问题。
- 关键思路ScMoE架构通过将通信与计算操作有效分离,实现了70%到100%的重叠,从而提高了MoE模型的效率。
- 其它亮点论文进行了实验,证明了ScMoE架构在PCIe和NVLink硬件环境下的训练速度和推理速度分别比当前主流的top-2 MoE架构提高了30%和11%,以及40%和15%。此外,ScMoE在视觉和语言任务中的模型质量也达到了甚至超过了现有方法的水平。
- 最近的相关研究包括Parallel Sparse Mixture-of-Experts for Neural Machine Translation和Efficient mixture of experts implementations for sequence modeling tasks等。
沙发等你来抢
去评论
评论
沙发等你来抢