Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

向作者提问

NEW

简介

我们注意到序列并行（SP——训练中的Ulysses）具有与数据并行（DP）类似的特性，但其KV缓存保持不变。我们将SP适配到推理场景中，并将其与张量并行（TP）相结合，从而兼得两者的优势。我们的解决方案是：Shift Parallelism（切换并行）。 Shift Parallelism能够在TP和SP之间动态切换，在低负载时最小化延迟，同时在高负载时保持高吞吐量。Shift Parallelism高效的GPU通信机制相比纯TP方案，最高可实现：i）交互式工作负载下响应速度提升1.51倍；ii）批量处理工作负载下吞吐量提高50%。我们使用真实生产环境中的动态流量轨迹，以及涵盖不同模型、上下文长度和请求到达率的合成基准模式对Shift Parallelism进行了评估。所有实验结果一致表明：与TP或DP相比，Shift Parallelism在延迟与吞吐量之间的权衡更优，因此在动态变化的工作负载下既能实现低延迟，又不会牺牲吞吐性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在大语言模型（LLM）推理中，张量并行（TP）虽能降低延迟但受限于GPU通信开销导致吞吐下降；数据并行（DP）吞吐高但响应延迟大。现有方法无法同时兼顾低延迟与高吞吐，尤其在动态流量场景下表现不佳。此外，由于KV缓存跨设备不一致，难以将TP与DP有效结合。这是一个实际部署中的关键挑战，尤其是在交互式和批量混合负载中。
关键思路

提出Shift Parallelism，通过将序列并行（SP）适配到推理阶段，并与TP动态切换，在保持KV缓存一致性的同时融合了TP的低延迟和SP的高吞吐优势。核心创新在于利用SP类似DP的吞吐特性但具备KV缓存不变性，从而实现TP与SP的协同，动态适应不同负载模式。
其它亮点

- 在真实生产流量和合成负载下验证，相比纯TP：交互式工作负载响应速度提升最高1.51倍，批处理吞吐提高50%。 - 支持动态流量变化，低流量时优先TP降低延迟，高流量时切换至SP提升吞吐。 - 实验覆盖多种模型、上下文长度和请求到达率，结果具有一致性和鲁棒性。 - 未提及开源代码，但基于Ulysses训练框架的SP思想迁移至推理为工程落地提供新路径。 - 值得深入研究方向包括自动化的并行策略调度器、KV缓存内存优化及多并行组合的扩展性。
相关研究

- Ulysses: Transparent Multi-Step Tensor Parallelism for Sequence Modeling - Megatron-LM: Training Large Language Models with Model Parallelism - DeepSpeed: System Optimizations Enable Training and Inference of Large Models - FlexGen: High-throughput Prompt Serving for Giant Foundation Models - Pipedream: Fast and Efficient Pipeline Parallelism for DNN Training - Sequence Parallelism: A Scalable Approach to Training Long-Sequence Transformers

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问