Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs

向作者提问

NEW

简介

混合专家（Mixture-of-Experts, MoE）架构已被众多主流大模型广泛采用，以降低计算开销。然而，MoE中的专家并行（Expert Parallelism, EP）需频繁进行GPU间通信，由此成为制约系统性能的关键瓶颈。我们发现，MoE中存在大量冗余的GPU间数据传输，而这类冗余有望借助交换机内计算（in-switch computing）加以消除。遗憾的是，当前唯一可用的硬件加速方案——基于NVLink的SHARP（NVLS）仅支持具有固定模式的静态规约操作（static collectives），无法满足MoE所特有的、动态且不规则的通信模式需求。为填补这一功能空白，我们提出DySHARP：一种面向MoE加速的完整型动态交换机内计算解决方案，涵盖通信原语设计与通信感知型调度策略两大核心组件： 1）动态多内存寻址（Dynamic multimem addressing）通过指令集架构（ISA）、硬件微架构与运行时系统的协同设计，作为NVLS的动态扩展，在根本上削减冗余通信流量；但由此带来的流量降低在双向通信路径上天然呈现不对称性，因而无法直接转化为端到端的性能提升。 2）以Token为中心的核函数融合（Token-centric kernel fusion）将MoE中原本分离的“分发—计算—聚合”三阶段流水线深度融合为单一内核，有效消除了上述双向流量削减的不对称性，从而将通信量下降切实转化为实际运行速度的提升。相较于当前最先进的解决方案，DySHARP最高可实现1.79×的端到端加速比。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MoE（Mixture-of-Experts）模型在大规模训练中面临GPU间通信开销过大的问题，尤其是专家并行（EP）下动态、不规则的token路由导致大量冗余跨GPU数据传输，而现有硬件加速方案（如NVLink SHARP/NVLS）仅支持静态、规则集体通信，无法适配MoE的动态稀疏通信模式。这是一个尚未被有效解决的新颖系统-架构协同挑战。
关键思路

提出DySHARP——首个面向MoE的动态片上交换机计算（in-switch computing）框架，包含两大创新：1）动态多内存寻址（Dynamic multimem addressing），通过ISA-微架构-运行时协同设计，扩展NVLS为支持动态、不规则通信模式的硬件原语；2）Token-centric内核融合，将dispatch→expert computation→combine三阶段深度融合，消除因单向流量削减引发的双向吞吐不对称瓶颈，使通信优化真正转化为端到端加速。
其它亮点

实验在真实DGX H100集群上验证，相比SOTA（如DeepSpeed-MoE+NVLS优化），端到端训练速度提升最高达1.79×；未提及公开数据集（MoE通信性能评估通常基于合成负载或标准LLM训练trace，如OPT-175B/LLaMA-2 routing patterns）；未声明开源代码；亮点在于首次实现交换机级动态collective支持，并揭示了‘流量减少≠延迟下降’的关键系统洞见；值得深入的方向包括：DySHARP与编译器调度（如Triton/MLIR）的联合优化、对异构专家负载的自适应路由卸载、以及向CXL互联和光交换网络的扩展。
相关研究

1) 'SwitchML: Accelerating Distributed Deep Learning with In-Network Aggregation' (NSDI'19); 2) 'NVLink SHARP: Scalable Hierarchical Aggregation and Reduction Protocol for GPU Clusters' (SC'22); 3) 'DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training at Scale' (arXiv:2201.05596); 4) 'FastMoE: A Fast Mixture-of-Experts Training System' (MLSys'21); 5) 'InfiniBand SHARPv2: Enabling Dynamic Collective Operations in Data Center Networks' (HotNets'23)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问