- 简介混合专家(MoE)架构对于扩展大规模语言模型至关重要,但其可扩展性在多GPU系统中严重受限于GPU间通信瓶颈。尽管“通信与计算重叠”是一种广为人知的优化手段,但在实际部署中,无论是在性能表现还是编程便捷性方面,仍面临巨大挑战。本文研究发现,问题的根本症结在于:MoE架构中动态、不规则的“令牌—专家”映射机制,与现代GPU所采用的静态、以地址为中心的通信模型之间存在根本性的抽象层错配;这种错配迫使系统必须在数据传输前引入一个复杂的软件中介阶段来解析目标地址,从而制约了整体性能与软件灵活性。为解决这一问题,我们提出了MoE-Hub——一种软硬件协同设计方案,并引入了一种“目标地址无关”的新型通信范式。MoE-Hub将数据传输与地址管理解耦:数据生产方仅需依据逻辑目标地址完成路由后即可立即发送数据;而地址分配与数据流调度则由GPU集线器(hub)中轻量级硬件透明地完成。通过硬件加速整个通信控制平面,MoE-Hub实现了通信与计算的无缝、透明重叠。实验评估表明,相较于当前最先进的系统,MoE-Hub在单层处理上可实现1.40倍至3.08倍的加速,在端到端整体推理速度上可提升1.21倍至1.98倍。
-
- 图表
- 解决问题MoE架构在多GPU扩展中受限于动态、不规则的token-to-expert映射与GPU静态地址-centric通信模型之间的根本性抽象失配,导致通信-计算重叠困难、软件中介开销大、性能和可编程性受限。这是一个尚未被硬件层系统性解决的新颖系统性问题。
- 关键思路提出MoE-Hub硬件-软件协同设计,引入‘目的地址无关(destination-agnostic)’通信范式:将数据传输与地址解析解耦,由GPU Hub中的轻量级硬件透明完成地址分配与流控,使producer可仅凭逻辑目标(如expert ID)立即发包,实现通信控制平面的全硬件加速与零开销重叠。
- 其它亮点在真实多GPU集群上端到端评估,覆盖16–128专家规模;相比NVIDIA NCCL+手动流水优化(如DeepSpeed-MoE)、All-to-All异步调度等SOTA系统,单层加速1.40x–3.08x,端到端加速1.21x–1.98x;无需修改用户代码或PyTorch/Transformer库,完全透明;论文未提开源代码,但描述了RTL微架构与PCIe/CXL兼容设计;值得深入的方向包括:MoE-Hub与CXL内存池协同、支持动态专家增删的运行时地址管理、向多节点MoE扩展。
- 1. 'Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity' (Google, 2021); 2. 'DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Models' (Microsoft, 2022); 3. 'FastMoE: A Fast Mixture-of-Experts System for Training Large Sparse Models' (Tsinghua, 2022); 4. 'Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning' (Berkeley, 2022); 5. 'Gemini: A Novel Architecture for Scalable MoE Training' (Meta, 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流