Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs

2026年05月07日
  • 简介
    混合专家(Mixture-of-Experts, MoE)架构已被众多主流大模型广泛采用,以降低计算开销。然而,MoE中的专家并行(Expert Parallelism, EP)需频繁进行GPU间通信,由此成为制约系统性能的关键瓶颈。我们发现,MoE中存在大量冗余的GPU间数据传输,而这类冗余有望借助交换机内计算(in-switch computing)加以消除。遗憾的是,当前唯一可用的硬件加速方案——基于NVLink的SHARP(NVLS)仅支持具有固定模式的静态规约操作(static collectives),无法满足MoE所特有的、动态且不规则的通信模式需求。为填补这一功能空白,我们提出DySHARP:一种面向MoE加速的完整型动态交换机内计算解决方案,涵盖通信原语设计与通信感知型调度策略两大核心组件: 1)动态多内存寻址(Dynamic multimem addressing)通过指令集架构(ISA)、硬件微架构与运行时系统的协同设计,作为NVLS的动态扩展,在根本上削减冗余通信流量;但由此带来的流量降低在双向通信路径上天然呈现不对称性,因而无法直接转化为端到端的性能提升。 2)以Token为中心的核函数融合(Token-centric kernel fusion)将MoE中原本分离的“分发—计算—聚合”三阶段流水线深度融合为单一内核,有效消除了上述双向流量削减的不对称性,从而将通信量下降切实转化为实际运行速度的提升。 相较于当前最先进的解决方案,DySHARP最高可实现1.79×的端到端加速比。
  • 作者讲解
  • 图表
  • 解决问题
    MoE(Mixture-of-Experts)模型在大规模训练中面临GPU间通信开销过大的问题,尤其是专家并行(EP)下动态、不规则的token路由导致大量冗余跨GPU数据传输,而现有硬件加速方案(如NVLink SHARP/NVLS)仅支持静态、规则集体通信,无法适配MoE的动态稀疏通信模式。这是一个尚未被有效解决的新颖系统-架构协同挑战。
  • 关键思路
    提出DySHARP——首个面向MoE的动态片上交换机计算(in-switch computing)框架,包含两大创新:1)动态多内存寻址(Dynamic multimem addressing),通过ISA-微架构-运行时协同设计,扩展NVLS为支持动态、不规则通信模式的硬件原语;2)Token-centric内核融合,将dispatch→expert computation→combine三阶段深度融合,消除因单向流量削减引发的双向吞吐不对称瓶颈,使通信优化真正转化为端到端加速。
  • 其它亮点
    实验在真实DGX H100集群上验证,相比SOTA(如DeepSpeed-MoE+NVLS优化),端到端训练速度提升最高达1.79×;未提及公开数据集(MoE通信性能评估通常基于合成负载或标准LLM训练trace,如OPT-175B/LLaMA-2 routing patterns);未声明开源代码;亮点在于首次实现交换机级动态collective支持,并揭示了‘流量减少≠延迟下降’的关键系统洞见;值得深入的方向包括:DySHARP与编译器调度(如Triton/MLIR)的联合优化、对异构专家负载的自适应路由卸载、以及向CXL互联和光交换网络的扩展。
  • 相关研究
    1) 'SwitchML: Accelerating Distributed Deep Learning with In-Network Aggregation' (NSDI'19); 2) 'NVLink SHARP: Scalable Hierarchical Aggregation and Reduction Protocol for GPU Clusters' (SC'22); 3) 'DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training at Scale' (arXiv:2201.05596); 4) 'FastMoE: A Fast Mixture-of-Experts Training System' (MLSys'21); 5) 'InfiniBand SHARPv2: Enabling Dynamic Collective Operations in Data Center Networks' (HotNets'23)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问