MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

2024年08月21日
  • 简介
    随着大型语言模型(LLMs)的推理成为机器学习应用中的重要工作负载,权重量化已成为有效GPU部署的标准技术。量化不仅可以减小模型大小,而且已经证明对于单用户推理可以显著加速,因为它减少了内存移动,而且对精度影响很小。然而,对于具有多个并行客户端的批量设置,这些设置对于实际服务非常重要,仍然不清楚是否可以实现加速。不清楚GPU内核是否可以被设计成保持实际上是内存限制的同时,支持批量工作负载的大量计算需求。本文通过描述混合精度自回归线性内核(Mixed-precision Auto-Regressive LINear kernels,MARLIN)的设计,肯定地回答了这个问题。具体而言,给定一个通过量化将权重压缩为每个元素4位的模型,MARLIN显示可以支持接近最大(4倍)量化加速的批量大小高达16-32,并且可以支持更大的批量大小高达64-128,加速逐渐降低,但仍然显著。MARLIN通过多种技术的组合实现了这一点,例如异步内存访问、复杂的任务调度和流水线处理以及定制的量化支持。我们的实验表明,MARLIN在不同场景下对于单个LLM层的近乎最优性能也可以导致端到端LLM推理加速(高达2.8倍),当与流行的vLLM服务引擎集成时。最后,MARLIN可扩展到其他压缩技术,如NVIDIA 2:4稀疏性,从而实现额外的加速。
  • 图表
  • 解决问题
    本文旨在解决在多个并行客户端的批量工作负载中,是否能够实现速度提升,而不会影响模型的准确性?
  • 关键思路
    本文介绍了一种名为MARLIN的混合精度自回归线性核设计,可以支持多达16-32的批处理大小,同时保持最大的量化速度提升。MARLIN通过异步内存访问、复杂任务调度和流水线技术等方法实现了这一目标。
  • 其它亮点
    本文的实验显示,MARLIN不仅在不同场景下的单个LLM层上实现了近乎最优的性能,而且与流行的vLLM服务引擎集成后,还可以实现端到端LLM推理加速(最高可达2.8倍)。此外,MARLIN还可扩展到其他压缩技术,如NVIDIA 2:4稀疏性,实现额外的加速。
  • 相关研究
    与本文相关的研究还包括:《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Learning both Weights and Connections for Efficient Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论