- 简介离线大语言模型(LLM)推理旨在固定资源预算下最大化请求处理吞吐量,因此通用型GPU服务器成为极具潜力的部署选择。然而,既有研究通常将模型卸载(offloading)与并行计算策略孤立地加以考虑,导致整体性能未能达到最优。本文提出PipeMax——一种高吞吐量LLM推理系统,通过将流水线并行(pipeline parallelism)与模型卸载深度协同,有效突破GPU服务器在互连带宽与显存容量两方面的限制。具体而言,流水线并行天然具备通信开销低的特点,且在任一时刻仅需在每块GPU上驻留一个批次(batch)的活跃计算状态,从而为将非活跃批次的KV缓存(KV cache)卸载至主机内存(或其它存储设备)创造了条件。PipeMax通过精细协调计算执行与卸载过程中的数据搬移,显著扩展了GPU的有效显存容量,并稳定支撑大规模批次的持续执行。实验结果表明,在配备8块GPU的单节点服务器上,PipeMax的吞吐量最高可达vLLM的2.51倍,同时分别比当前最先进的两类高吞吐量LLM系统高出1.42倍和1.38倍。
-
- 图表
- 解决问题在离线大语言模型(LLM)推理场景下,如何在固定预算(尤其是单机多卡GPU服务器)约束下最大化请求吞吐量。现有系统常孤立地优化流水线并行或显存卸载,导致受制于GPU间互连带宽和显存容量瓶颈,难以同时支持大batch和高并发——这是一个尚未被协同优化的实用系统问题,非全新问题但关键工程挑战未被充分解决。
- 关键思路提出PipeMax,首次将pipeline parallelism与KV cache offloading深度协同:利用流水线天然的阶段性空闲特性(仅一个micro-batch活跃于每卡),动态卸载其他micro-batch的KV缓存至CPU内存或NVMe;通过计算-卸载联合调度(compute-offload co-scheduling),将GPU显存转化为‘逻辑扩展容量’,从而维持大batch持续执行——核心新意在于‘时序感知的卸载时机’而非单纯增加卸载带宽或层数。
- 其它亮点在8-GPU单节点实测中,相比vLLM提升2.51x吞吐,超越当前最优高吞吐系统(如FlexGen、Orca)达1.42x/1.38x;实验覆盖Llama-2/3、Falcon等主流开源模型(7B–70B),使用真实服务负载(ShareGPT、Alpaca)模拟;未提开源代码(截至论文发布时),但设计强调可部署性(兼容CUDA统一虚拟地址UVA);值得深挖的方向包括:异构存储层级(HBM-DRAM-NVMe)的细粒度KV分层调度、面向生成长度动态变化的自适应卸载策略、以及与量化/稀疏化联合优化。
- FlexGen (OSDI'22):两层卸载(GPU+CPU),但无流水线协同;vLLM (OSDI'23):PagedAttention高效管理KV,但未跨GPU卸载;Orca (EuroSys'24):基于计算图切分的多GPU调度,侧重延迟而非吞吐;DeepSpeed-Inference (2022):支持流水线并行,但KV缓存全驻GPU;Spatio (MLSys'24):内存感知的批处理调度,未整合卸载。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流