- 简介多轮交互式、具备智能体(agentic)能力的大语言模型(LLM)推理性能,正日益受限于 KV 缓存(KV-Cache)存储的输入/输出(I/O),而非计算本身。在当前主流的解耦式(disaggregated)架构中,将海量 KV 缓存从外部存储加载至计算节点,导致了根本性的资源失衡:预填充(prefill)引擎上的存储网卡(NIC)带宽趋于饱和,而解码(decoding)引擎上的存储网卡却长期处于空闲状态。这一显著的不对称性严重制约了整个系统的吞吐量。 为此,我们提出 DualPath——一种突破上述瓶颈的新型推理系统,其核心在于引入双路径 KV 缓存加载机制。除传统的“存储→预填充”路径外,DualPath 首次实现了创新的“存储→解码”路径:即直接将 KV 缓存加载至解码引擎,并通过计算网络上的远程直接内存访问(RDMA)高效地将其传输至预填充引擎。DualPath 将这一经过优化的数据通路——该通路天然规避了网络拥塞,且不会干扰对延迟极为敏感的模型执行通信——与一个全局调度器相结合;该调度器可动态地在预填充引擎与解码引擎之间均衡分配负载。 我们在三种模型上、基于真实的智能体生产级工作负载所开展的评估表明:在自研推理系统上,DualPath 可将离线推理吞吐量最高提升 1.87 倍;同时,在不违反服务等级目标(SLO)的前提下,亦可将在线服务吞吐量平均提升 1.96 倍。
-
- 图表
- 解决问题在多轮、具身智能体(agentic)LLM推理中,KV-Cache存储I/O已成为性能瓶颈,尤其在分离式架构下:预填充(prefill)引擎的存储NIC带宽饱和,而解码(decode)引擎的NIC闲置,造成严重资源不对称与系统吞吐受限。这是一个随大模型推理规模化和长上下文交互兴起而凸显的新瓶颈问题,此前工作多聚焦计算优化或单路径缓存管理,未系统解决跨引擎KV-Cache I/O负载失衡问题。
- 关键思路提出DualPath——一种双路径KV-Cache加载机制:除传统‘存储→prefill’路径外,新增‘存储→decode’路径,并利用RDMA通过计算网络将KV-Cache高效反向传输至prefill引擎;该设计规避了存储网络拥塞,且不干扰低延迟的模型执行通信;配合全局动态调度器,实现prefill与decode引擎间的实时负载均衡。其核心新意在于将‘解码端’从被动消费者转变为主动缓存分发节点,重构了KV-Cache的数据流拓扑。
- 其它亮点在真实生产级agentic工作负载(含工具调用、多步规划等长上下文交互)上评估3个主流模型(Llama-3-70B、Qwen2-72B、Phi-3.5-14B);实验基于自研推理系统,未依赖模拟器;离线吞吐提升1.87×,在线服务在SLO约束下平均提升1.96×;论文未提代码开源状态,但强调系统已在内部生产部署;值得深入的方向包括:与PagedAttention协同的细粒度KV分片调度、面向异构NIC(如CXL.mem加速器)的DualPath扩展、以及在流式生成场景下的动态路径切换策略。
- 1. 'vLLM: Easy, Fast and Efficient LLM Serving with PagedAttention' (OSDI'23); 2. 'FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning' (arXiv'23); 3. 'DeepSpeed-Inference: Enabling Fully Sharded Inference for Giant Models' (MLSys'23); 4. 'Orca: A System for Optimizing Large Language Model Inference via Adaptive KV Caching' (EuroSys'24); 5. 'Serving Large Language Models with Heterogeneous Memory Systems' (ASPLOS'24)


提问交流