FastDecode: High-Throughput GPU-Efficient LLM Serving using Heterogeneous Pipelines

2024年03月18日
  • 简介
    大语言模型(LLM)的服务成本很高,但昂贵且稀缺的GPU在顺序生成令牌时效率很低,除非批处理序列被放大。然而,批处理大小受到一些不断重复使用的中间结果的限制,即KV-Cache。它们占用太多内存,无法同时将更多序列装入GPU中。虽然它们可以转移到主机内存中,但CPU-GPU带宽是不可避免的瓶颈。我们找到了一种将变压器模型分解为两个不同特性部分的方法,其中一个包括内存限制的KV-Cache访问。我们的关键洞察力是,跨多个节点的CPU的聚合内存容量、带宽和计算能力是处理此部分的有效选择。性能的提高来自于减少数据传输开销和提高GPU吞吐量以处理其他模型部分。此外,我们使用调度和性能建模技术解决了由于时间和设备间异构性带来的效率挑战。评估结果表明,与相同GPU服务现代LLMs相比,我们的系统的吞吐量达到vLLM的1.88倍至5.04倍。
  • 作者讲解
  • 图表
  • 解决问题
    解决大型语言模型在GPU上生成token的效率问题,特别是在KV-Cache占用过多内存时的限制。
  • 关键思路
    将transformer模型分解为两个部分,其中包括内存密集型的KV-Cache访问。通过利用多节点的CPU聚合内存容量、带宽和计算能力,来处理这一部分。同时通过调度和性能建模技术来解决异构性带来的效率挑战。
  • 其它亮点
    实验结果显示,该系统在相同GPU的情况下,处理现代大型语言模型时,比vLLM的吞吐量提高了1.88倍至5.04倍。
  • 相关研究
    与此相关的研究包括《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《Scaling Laws for Neural Language Models》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问