- 简介量化可以加速大型语言模型(LLM)的推断。除了INT8量化之外,研究界正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推断,无法在大批量、基于云的LLM服务中提供性能增益。我们揭示了一个关键问题:现有的INT4量化方法在GPU上解量化权重或部分和时会遭受显著的运行时开销(20-90%)。为了解决这个挑战,我们引入了QoQ,一种W4A8KV4量化算法,具有4位权重、8位激活和4位KV缓存。QoQ代表拉丁文中的4-8-4。QoQ是由QServe推断库实现的,可以实现测量加速。驱动QServe的关键见解是,LLM在GPU上的效率受低吞吐量CUDA核上的操作的影响。基于这一见解,在QoQ算法中,我们引入了渐进量化,可以允许在W4A8 GEMM中低解量化开销。此外,我们开发了SmoothAttention来有效地减轻由4位KV量化引起的精度降低。在QServe系统中,我们执行计算感知权重重排序,并利用寄存器级并行性来减少解量化延迟。我们还使融合注意力受内存限制,利用KV4量化带来的性能增益。结果,与TensorRT-LLM相比,QServe在A100上将Llama-3-8B的最大可达服务吞吐量提高了1.2倍,在L40S上提高了1.4倍;在A100上,将Qwen1.5-72B提高了2.4倍,在L40S上提高了3.5倍。值得注意的是,L40S GPU上的QServe甚至可以比A100上的TensorRT-LLM实现更高的吞吐量。因此,QServe有效地将LLM服务的美元成本降低了3倍。代码可在https://github.com/mit-han-lab/qserve上获得。
-
- 解决问题本论文旨在解决低精度量化对大型语言模型推理性能的提升,特别是在云端大批量推理时的性能提升问题。
- 关键思路QoQ算法是一种W4A8KV4量化算法,通过引入渐进量化来减少W4A8 GEMM中的低解量化开销,利用计算感知的权重重排序和寄存器级并行处理来降低解量化延迟,并将融合注意力变为内存限制,从而提高LLM的推理性能。
- 其它亮点本论文提出了QoQ算法和QServe推理库,可以在A100和L40S GPU上实现1.2x到3.5x的推理性能提升,比TensorRT-LLM更具成本效益。SmoothAttention可以有效地减少4位KV量化带来的精度损失。该论文提供了开源代码。
- 最近的相关研究包括《Training Quantized Transformer for Large-scale Language Model Deployment》和《Revisiting Low-Precision Training: A Stronger Baseline and Unified Norm Stabilization》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流