Serving Large Language Models on Huawei CloudMatrix384

2025年06月15日
  • 简介
    大语言模型(LLM)的快速发展,受到参数规模增长、专家混合(MoE)架构的采用以及上下文长度扩展的推动,对人工智能基础设施提出了前所未有的需求。传统的AI集群在计算强度、内存带宽、芯片间通信和延迟方面面临限制,这些限制因工作负载的波动和服务级别目标的严格性而加剧。解决这些问题需要从根本上重新设计软硬件集成方案。本文介绍华为云矩阵(CloudMatrix),这是一种下一代AI数据中心架构,在生产级别的CloudMatrix384超节点中实现。该架构集成了384个昇腾910 NPU和192个鲲鹏CPU,并通过超高带宽的统一总线(UB)网络互联,支持直接全对全通信和资源的动态池化。这些特性优化了通信密集型操作的性能,例如大规模MoE专家并行和分布式键值缓存访问。 为了充分释放CloudMatrix384的潜力,我们提出CloudMatrix-Infer,这是一套先进的LLM推理服务解决方案,包含三项核心创新:一种点对点的服务架构,能够独立扩展预填充、解码和缓存;一种支持EP320的大规模专家并行策略,通过高效的基于UB的令牌分发实现;以及面向硬件的优化技术,包括专用算子、基于微批次的流水线处理和INT8量化。使用DeepSeek-R1模型进行评估的结果显示,CloudMatrix-Infer实现了业界领先的效率:每个NPU的预填充吞吐量达到6,688 token/s,解码吞吐量达到1,943 token/s(TPOT < 50毫秒)。它能够在严格的性能要求下有效平衡吞吐量和延迟,即使在15毫秒的严格延迟约束下,仍能维持每个NPU 538 token/s的吞吐量。此外,INT8量化在多个基准测试中保持了模型的准确性。
  • 图表
  • 解决问题
    论文试图解决大规模语言模型(LLM)在推理过程中对AI基础设施提出的严峻挑战,包括计算密集型需求、内存带宽限制、芯片间通信瓶颈以及低延迟要求。这是一个亟需解决的问题,因为传统AI集群难以满足这些需求。
  • 关键思路
    论文提出了一种全新的硬件-软件协同设计方法,通过华为CloudMatrix384超节点架构和CloudMatrix-Infer推理解决方案来应对上述问题。关键创新包括:1)集成384个Ascend 910神经处理单元(NPU)和192个Kunpeng CPU的下一代AI数据中心架构;2)采用超高速统一总线(UB)网络实现高效的全互联通信;3)针对LLM推理优化的三重创新技术:点对点服务架构、大规模专家并行策略和支持INT8量化。相比现有研究,该方案特别强调了硬件级优化与高效资源调度的结合。
  • 其它亮点
    论文在实验设计上采用了DeepSeek-R1模型进行评估,并展示了卓越的性能指标,例如每NPU的Prefill吞吐量达到6,688 tokens/s,Decode吞吐量为1,943 tokens/s,且在严格15ms延迟约束下仍能保持高吞吐量。此外,论文提到的INT8量化技术能够在不牺牲精度的情况下显著提升效率。虽然论文未明确提及代码开源情况,但其硬件架构和优化策略值得进一步探索,尤其是如何将类似的设计应用于其他类型的AI任务或模型。
  • 相关研究
    近期相关研究包括:1)Google的Pathways架构,同样关注MoE模型的大规模分布式训练与推理;2)NVIDIA的Hopper架构及其Transformer Engine,旨在加速LLM推理并通过混合精度实现更高效的计算;3)阿里巴巴的通义千问(Qwen)系列论文,探讨了大规模语言模型在不同场景下的优化策略;4)Meta的Llama系列研究,重点关注开放模型生态与高效推理技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论