MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

简介

随着大型语言模型（LLMs）的推理成为机器学习应用中的重要工作负载，权重量化已成为有效GPU部署的标准技术。量化不仅可以减小模型大小，而且已经证明对于单用户推理可以显著加速，因为它减少了内存移动，而且对精度影响很小。然而，对于具有多个并行客户端的批量设置，这些设置对于实际服务非常重要，仍然不清楚是否可以实现加速。不清楚GPU内核是否可以被设计成保持实际上是内存限制的同时，支持批量工作负载的大量计算需求。本文通过描述混合精度自回归线性内核（Mixed-precision Auto-Regressive LINear kernels，MARLIN）的设计，肯定地回答了这个问题。具体而言，给定一个通过量化将权重压缩为每个元素4位的模型，MARLIN显示可以支持接近最大（4倍）量化加速的批量大小高达16-32，并且可以支持更大的批量大小高达64-128，加速逐渐降低，但仍然显著。MARLIN通过多种技术的组合实现了这一点，例如异步内存访问、复杂的任务调度和流水线处理以及定制的量化支持。我们的实验表明，MARLIN在不同场景下对于单个LLM层的近乎最优性能也可以导致端到端LLM推理加速（高达2.8倍），当与流行的vLLM服务引擎集成时。最后，MARLIN可扩展到其他压缩技术，如NVIDIA 2:4稀疏性，从而实现额外的加速。
图表
解决问题

本文旨在解决在多个并行客户端的批量工作负载中，是否能够实现速度提升，而不会影响模型的准确性？
关键思路

本文介绍了一种名为MARLIN的混合精度自回归线性核设计，可以支持多达16-32的批处理大小，同时保持最大的量化速度提升。MARLIN通过异步内存访问、复杂任务调度和流水线技术等方法实现了这一目标。
其它亮点

本文的实验显示，MARLIN不仅在不同场景下的单个LLM层上实现了近乎最优的性能，而且与流行的vLLM服务引擎集成后，还可以实现端到端LLM推理加速（最高可达2.8倍）。此外，MARLIN还可扩展到其他压缩技术，如NVIDIA 2:4稀疏性，实现额外的加速。
相关研究

与本文相关的研究还包括：《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Learning both Weights and Connections for Efficient Neural Networks》等。

MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

评论