Combining multiple post-training techniques to achieve most efficient quantized LLMs

2024年05月12日
  • 简介
    这篇论文探讨了使用量化技术来缓解大型语言模型(LLM)所面临的计算和存储挑战的潜力。作者系统地研究了两种著名的训练后技术SmoothQuant和GPTQ的联合应用,并全面分析了它们的相互作用和对推进LLM量化的影响。作者通过使量化适用于微缩放(MX)格式,扩展了这两种技术的适用范围,超越了它们最初的定点格式目标。作者表明,通过应用GPTQ和SmoothQuant,并使用MX格式来量化模型,我们可以将OPT模型的大小显著减少高达4倍,LLaMA模型的大小减少高达3倍,而困惑度仅增加1-3%,影响可以忽略不计。
  • 图表
  • 解决问题
    本论文旨在探索量化技术在减轻大型语言模型计算和存储挑战方面的潜力。具体而言,研究了两种后训练技术的组合应用,SmoothQuant和GPTQ,并提供了它们相互作用和对LLM量化推进的影响的综合分析。
  • 关键思路
    通过应用GPTQ和SmoothQuant,并采用MX格式量化模型,可以实现OPT模型大小最多减小4倍,LLaMA模型大小最多减小3倍,而困惑度仅增加1-3%。
  • 其它亮点
    实验设计了详细的数据集和开源代码,两种技术的组合应用为LLM量化提供了新思路,采用MX格式量化模型扩大了技术的适用范围。值得进一步研究。
  • 相关研究
    近期的相关研究包括《Quantizing GPT-2: Training Large, Sparse Language Models with 8-bit Quantization》和《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论