QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

简介

量化可以加速大型语言模型（LLM）的推断。除了INT8量化之外，研究界正在积极探索更低精度，如INT4。然而，最先进的INT4量化技术仅能加速低批量、边缘LLM推断，无法在大批量、基于云的LLM服务中提供性能增益。我们揭示了一个关键问题：现有的INT4量化方法在GPU上解量化权重或部分和时会遭受显著的运行时开销（20-90%）。为了解决这个挑战，我们引入了QoQ，一种W4A8KV4量化算法，具有4位权重、8位激活和4位KV缓存。QoQ代表拉丁文中的4-8-4。QoQ是由QServe推断库实现的，可以实现测量加速。驱动QServe的关键见解是，LLM在GPU上的效率受低吞吐量CUDA核上的操作的影响。基于这一见解，在QoQ算法中，我们引入了渐进量化，可以允许在W4A8 GEMM中低解量化开销。此外，我们开发了SmoothAttention来有效地减轻由4位KV量化引起的精度降低。在QServe系统中，我们执行计算感知权重重排序，并利用寄存器级并行性来减少解量化延迟。我们还使融合注意力受内存限制，利用KV4量化带来的性能增益。结果，与TensorRT-LLM相比，QServe在A100上将Llama-3-8B的最大可达服务吞吐量提高了1.2倍，在L40S上提高了1.4倍；在A100上，将Qwen1.5-72B提高了2.4倍，在L40S上提高了3.5倍。值得注意的是，L40S GPU上的QServe甚至可以比A100上的TensorRT-LLM实现更高的吞吐量。因此，QServe有效地将LLM服务的美元成本降低了3倍。代码可在https://github.com/mit-han-lab/qserve上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

本论文旨在解决低精度量化对大型语言模型推理性能的提升，特别是在云端大批量推理时的性能提升问题。
关键思路

QoQ算法是一种W4A8KV4量化算法，通过引入渐进量化来减少W4A8 GEMM中的低解量化开销，利用计算感知的权重重排序和寄存器级并行处理来降低解量化延迟，并将融合注意力变为内存限制，从而提高LLM的推理性能。
其它亮点

本论文提出了QoQ算法和QServe推理库，可以在A100和L40S GPU上实现1.2x到3.5x的推理性能提升，比TensorRT-LLM更具成本效益。SmoothAttention可以有效地减少4位KV量化带来的精度损失。该论文提供了开源代码。
相关研究

最近的相关研究包括《Training Quantized Transformer for Large-scale Language Model Deployment》和《Revisiting Low-Precision Training: A Stronger Baseline and Unified Norm Stabilization》等。

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

提问交流

提问交流