Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

2025年09月20日
  • 简介
    我们注意到序列并行(SP——训练中的Ulysses)具有与数据并行(DP)类似的特性,但其KV缓存保持不变。我们将SP适配到推理场景中,并将其与张量并行(TP)相结合,从而兼得两者的优势。我们的解决方案是:Shift Parallelism(切换并行)。 Shift Parallelism能够在TP和SP之间动态切换,在低负载时最小化延迟,同时在高负载时保持高吞吐量。Shift Parallelism高效的GPU通信机制相比纯TP方案,最高可实现:i)交互式工作负载下响应速度提升1.51倍;ii)批量处理工作负载下吞吐量提高50%。 我们使用真实生产环境中的动态流量轨迹,以及涵盖不同模型、上下文长度和请求到达率的合成基准模式对Shift Parallelism进行了评估。所有实验结果一致表明:与TP或DP相比,Shift Parallelism在延迟与吞吐量之间的权衡更优,因此在动态变化的工作负载下既能实现低延迟,又不会牺牲吞吐性能。
  • 作者讲解
  • 图表
  • 解决问题
    在大语言模型(LLM)推理中,张量并行(TP)虽能降低延迟但受限于GPU通信开销导致吞吐下降;数据并行(DP)吞吐高但响应延迟大。现有方法无法同时兼顾低延迟与高吞吐,尤其在动态流量场景下表现不佳。此外,由于KV缓存跨设备不一致,难以将TP与DP有效结合。这是一个实际部署中的关键挑战,尤其是在交互式和批量混合负载中。
  • 关键思路
    提出Shift Parallelism,通过将序列并行(SP)适配到推理阶段,并与TP动态切换,在保持KV缓存一致性的同时融合了TP的低延迟和SP的高吞吐优势。核心创新在于利用SP类似DP的吞吐特性但具备KV缓存不变性,从而实现TP与SP的协同,动态适应不同负载模式。
  • 其它亮点
    - 在真实生产流量和合成负载下验证,相比纯TP:交互式工作负载响应速度提升最高1.51倍,批处理吞吐提高50%。 - 支持动态流量变化,低流量时优先TP降低延迟,高流量时切换至SP提升吞吐。 - 实验覆盖多种模型、上下文长度和请求到达率,结果具有一致性和鲁棒性。 - 未提及开源代码,但基于Ulysses训练框架的SP思想迁移至推理为工程落地提供新路径。 - 值得深入研究方向包括自动化的并行策略调度器、KV缓存内存优化及多并行组合的扩展性。
  • 相关研究
    - Ulysses: Transparent Multi-Step Tensor Parallelism for Sequence Modeling - Megatron-LM: Training Large Language Models with Model Parallelism - DeepSpeed: System Optimizations Enable Training and Inference of Large Models - FlexGen: High-throughput Prompt Serving for Giant Foundation Models - Pipedream: Fast and Efficient Pipeline Parallelism for DNN Training - Sequence Parallelism: A Scalable Approach to Training Long-Sequence Transformers
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问