Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

2025年05月27日
  • 简介
    专家混合模型(Mixture of Experts, MoE)在大规模语言模型中的出现,承诺了以较低的运行成本实现更大的模型参数量和学习能力,因为每个输入标记只会激活一小部分参数。然而,通常会观察到某些专家被激活的频率远高于其他专家,这在将专家并行部署于不同设备时会导致系统效率低下。因此,我们引入了分组专家混合模型(Mixture of Grouped Experts, MoGE),该模型在选择过程中对专家进行分组,并且天然比传统的 MoE 更好地平衡了专家的工作负载。MoGE 限制每个标记在预定义的专家组内激活相同数量的专家。当模型的执行分布在多个设备上时,这种架构设计确保了设备之间的计算负载均衡,显著提升了吞吐量,尤其是在推理阶段。 此外,我们在 Ascend NPU 上构建了盘古 Pro MoE,这是一个基于 MoGE 的稀疏模型,总参数量达到 720 亿,其中每个标记激活 160 亿参数。通过广泛的系统仿真研究,盘古 Pro MoE 的配置针对 Ascend 300I Duo 和 800I A2 进行了优化。我们的实验表明,MoGE 确实能够更好地平衡专家负载,从而提高模型训练和推理的执行效率。盘古 Pro MoE 的推理性能达到了每卡 1148 个标记/秒,并且通过推测加速技术可以进一步提升至每卡 1528 个标记/秒,超越了同等规模的 320 亿和 720 亿参数的密集模型。此外,我们在 Ascend 300I Duo 上实现了卓越的性价比。研究表明,Ascend NPU 能够通过大规模并行化训练盘古 Pro MoE,使其成为总参数量低于 1000 亿类别中的领先模型,性能优于诸如 GLM-Z1-32B 和 Qwen3-32B 等知名开源模型。
  • 图表
  • 解决问题
    论文试图解决Mixture of Experts (MoE) 模型中专家负载不平衡的问题,这会导致系统在分布式设备上运行时效率低下。这是一个已知问题,但论文提出了一种新的架构设计来优化这一挑战。
  • 关键思路
    论文提出了Mixture of Grouped Experts (MoGE),通过将专家分组并在选择过程中约束每个组内激活的专家数量相等,从而实现更好的负载均衡。相比传统的MoE,MoGE在模型训练和推理阶段显著提升了计算资源利用率和吞吐量。
  • 其它亮点
    论文构建了Pangu Pro MoE模型,基于MoGE架构,在Ascend NPUs上实现了高效推理(1148 tokens/s每卡,经优化后可达1528 tokens/s每卡)。此外,论文通过系统模拟研究优化了模型配置,并验证了MoGE在负载均衡方面的优越性。代码和模型可能值得开源以供社区进一步研究,同时 Ascend NPUs 的性能表现表明其适合大规模稀疏模型训练。未来可以探索MoGE在更大规模参数量或更多样化任务中的应用。
  • 相关研究
    相关工作包括传统MoE架构的研究,例如GShard、Switch Transformer等。其他近期研究还包括针对特定硬件优化的大模型,如NVIDIA的Megatron-LM和Google的Pathways架构。此外,国内研究机构也发布了类似大模型,如GLM-Z1-32B和Qwen3-32B,但这些模型大多基于密集架构,而Pangu Pro MoE则专注于稀疏架构的优化。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论