PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers

向作者提问

NEW

简介

离线大语言模型（LLM）推理旨在固定资源预算下最大化请求处理吞吐量，因此通用型GPU服务器成为极具潜力的部署选择。然而，既有研究通常将模型卸载（offloading）与并行计算策略孤立地加以考虑，导致整体性能未能达到最优。本文提出PipeMax——一种高吞吐量LLM推理系统，通过将流水线并行（pipeline parallelism）与模型卸载深度协同，有效突破GPU服务器在互连带宽与显存容量两方面的限制。具体而言，流水线并行天然具备通信开销低的特点，且在任一时刻仅需在每块GPU上驻留一个批次（batch）的活跃计算状态，从而为将非活跃批次的KV缓存（KV cache）卸载至主机内存（或其它存储设备）创造了条件。PipeMax通过精细协调计算执行与卸载过程中的数据搬移，显著扩展了GPU的有效显存容量，并稳定支撑大规模批次的持续执行。实验结果表明，在配备8块GPU的单节点服务器上，PipeMax的吞吐量最高可达vLLM的2.51倍，同时分别比当前最先进的两类高吞吐量LLM系统高出1.42倍和1.38倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在离线大语言模型（LLM）推理场景下，如何在固定预算（尤其是单机多卡GPU服务器）约束下最大化请求吞吐量。现有系统常孤立地优化流水线并行或显存卸载，导致受制于GPU间互连带宽和显存容量瓶颈，难以同时支持大batch和高并发——这是一个尚未被协同优化的实用系统问题，非全新问题但关键工程挑战未被充分解决。
关键思路

提出PipeMax，首次将pipeline parallelism与KV cache offloading深度协同：利用流水线天然的阶段性空闲特性（仅一个micro-batch活跃于每卡），动态卸载其他micro-batch的KV缓存至CPU内存或NVMe；通过计算-卸载联合调度（compute-offload co-scheduling），将GPU显存转化为‘逻辑扩展容量’，从而维持大batch持续执行——核心新意在于‘时序感知的卸载时机’而非单纯增加卸载带宽或层数。
其它亮点

在8-GPU单节点实测中，相比vLLM提升2.51x吞吐，超越当前最优高吞吐系统（如FlexGen、Orca）达1.42x/1.38x；实验覆盖Llama-2/3、Falcon等主流开源模型（7B–70B），使用真实服务负载（ShareGPT、Alpaca）模拟；未提开源代码（截至论文发布时），但设计强调可部署性（兼容CUDA统一虚拟地址UVA）；值得深挖的方向包括：异构存储层级（HBM-DRAM-NVMe）的细粒度KV分层调度、面向生成长度动态变化的自适应卸载策略、以及与量化/稀疏化联合优化。
相关研究

FlexGen (OSDI'22)：两层卸载（GPU+CPU），但无流水线协同；vLLM (OSDI'23)：PagedAttention高效管理KV，但未跨GPU卸载；Orca (EuroSys'24)：基于计算图切分的多GPU调度，侧重延迟而非吞吐；DeepSpeed-Inference (2022)：支持流水线并行，但KV缓存全驻GPU；Spatio (MLSys'24)：内存感知的批处理调度，未整合卸载。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问