"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

2024年11月04日
  • 简介
    尽管大规模语言模型(LLM)量化在推理加速方面非常流行,但关于各种量化格式的精度与性能权衡仍存在显著的不确定性。我们进行了一项全面的实证研究,评估了流行的量化格式(FP8、INT8、INT4)在学术基准测试和实际任务中的量化精度,涵盖了整个Llama-3.1模型系列。此外,我们的研究还考察了量化模型与未压缩模型生成文本的差异。除了基准测试,我们还提出了一些量化改进措施,使我们能够获得最先进的精度恢复结果。我们的调查包括超过50万次单独评估,得出几个关键发现:(1) FP8权重和激活量化(W8A8-FP)在所有模型规模上都是无损的;(2) 当适当调优时,INT8权重和激活量化(W8A8-INT)的精度损失令人惊讶地低,仅为1-3%;(3) INT4权重量化(W4A16-INT)与8位整数权重和激活量化具有竞争力。为了回答给定部署环境中“最佳”格式的问题,我们使用流行的开源vLLM框架在不同的GPU架构上进行了推理性能分析。我们发现,W4A16在同步部署和中端GPU的异步部署中提供了最佳的成本效益。同时,W8A8格式在高端GPU上的中型和大型模型异步“连续批处理”部署中表现出色。我们的结果为在不同规模和性能要求下部署量化LLM提供了一套实用指南。
  • 图表
  • 解决问题
    该论文旨在解决大型语言模型(LLM)量化过程中准确性和性能之间的权衡问题。具体来说,它探讨了不同量化格式(如FP8、INT8、INT4)在各种学术基准和实际任务中的表现,特别是在Llama-3.1模型家族上的应用。
  • 关键思路
    论文的关键思路是通过大规模的实证研究,系统地评估不同量化格式对模型性能的影响,并提出了一些改进方法以提高量化模型的准确性。相比现有研究,该论文不仅覆盖了广泛的量化格式和模型规模,还提供了详细的性能分析,为实际部署提供了实用指南。
  • 其它亮点
    1. 论文进行了超过500,000次的评估,涵盖了多种量化格式和模型规模。 2. 发现FP8权重和激活量化(W8A8-FP)在所有模型规模上都是无损的。 3. INT8权重和激活量化(W8A8-INT)在适当调优后,仅导致1-3%的准确性下降。 4. INT4权重量化(W4A16-INT)在某些场景下与8位整数量化(W8A8-INT)具有竞争力。 5. 提供了针对不同部署环境的性能分析,包括同步和异步部署的最佳量化格式选择。
  • 相关研究
    1. "Quantizing Large Language Models to 4-bits with Higher-Order Perturbation Analysis" - 探讨了4位量化的高阶扰动分析方法。 2. "Low-Precision Integer Quantization for Deep Learning Inference" - 研究了低精度整数量化在深度学习推理中的应用。 3. "Efficient Inference of Large-Scale Neural Networks via Quantization and Pruning" - 结合量化和剪枝技术优化大规模神经网络的推理效率。 4. "Mixed Precision Training for Efficient Deep Learning" - 探讨了混合精度训练在提高训练效率方面的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论