Serving Large Language Models on Huawei CloudMatrix384

2025年06月15日
  • 简介
    大语言模型(LLM)的快速发展,受到参数规模增长、专家混合(MoE)架构的采用以及上下文长度扩展的推动,对人工智能基础设施提出了前所未有的需求。传统的AI集群在计算强度、内存带宽、芯片间通信和延迟方面面临局限性,这些挑战因工作负载的波动和服务级别目标的严格要求而进一步加剧。解决这些问题需要从根本上重新设计硬件与软件的集成方案。本文介绍了华为云矩阵(CloudMatrix),这是一种下一代AI数据中心架构,已在生产级别的CloudMatrix384超级节点中实现。该架构集成了384个昇腾910C神经处理单元(NPU)和192个鲲鹏CPU,并通过超高带宽的统一总线(UB)网络互联,支持直接的全对全通信和动态资源池化。这些特性优化了通信密集型操作的性能,例如大规模MoE专家并行和分布式键值缓存访问。 为了充分挖掘CloudMatrix384的潜力,我们提出了CloudMatrix-Infer,这是一套先进的LLM推理服务解决方案,包含三项核心创新:一种点对点的服务架构,能够独立扩展预填充、解码和缓存;一种支持EP320的大规模专家并行策略,通过高效的基于UB的令牌调度实现;以及面向硬件的优化技术,包括专用算子、基于微批次的流水线处理和INT8量化。使用DeepSeek-R1模型进行评估的结果显示,CloudMatrix-Infer实现了业界领先的效率:每个NPU的预填充吞吐量为6,688 token/s,解码吞吐量为1,943 token/s(TPOT < 50 ms)。它能够在严格的性能指标下有效平衡吞吐量和延迟,在15毫秒的严格延迟约束下,仍能维持每个NPU 538 token/s的吞吐量。此外,INT8量化在多个基准测试中保持了模型的准确性。
  • 图表
  • 解决问题
    该论文试图解决传统AI集群在处理大规模语言模型(LLMs)时面临的计算密集、内存带宽、芯片间通信和低延迟需求等挑战。这是一个随着LLM规模增长而日益突出的问题,需要重新设计硬件-软件集成方案。
  • 关键思路
    论文提出了华为CloudMatrix384超节点架构,集成了384个Ascend 910C神经处理单元(NPUs)和192个Kunpeng CPU,并通过高带宽Unified Bus(UB)网络实现直接全互联通信和动态资源池化。此外,还提出了CloudMatrix-Infer推理框架,结合点对点服务架构、大规模专家并行策略以及硬件感知优化技术(如INT8量化),以提升LLM推理效率和性能。
  • 其它亮点
    论文展示了CloudMatrix-Infer在DeepSeek-R1模型上的卓越表现,包括6,688 tokens/s的预填充吞吐量和1,943 tokens/s的解码吞吐量(TPOT<50ms)。即使在严格15ms延迟约束下,仍能维持538 tokens/s的高性能。实验设计详尽,使用了实际生产环境中的硬件配置进行测试,且INT8量化未损失模型精度。代码是否开源未明确提及,但硬件设计和优化方法值得进一步研究。
  • 相关研究
    近期相关研究包括:Google的GShard和Switch Transformer,探索了MoE架构在LLM中的应用;NVIDIA的Megatron-LM,专注于大规模模型训练与推理优化;阿里云的M6和通义千问系列,展示了大规模多模态和文本模型的实际应用;以及Facebook的Llama系列,在开源社区中推动了大模型的研究进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论