How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

2024年04月22日
  • 简介
    Meta的LLaMA系列已成为最强大的开源大型语言模型系列之一。值得注意的是,LLaMA3模型最近发布,并在超过15T数据令牌的大规模预训练中在各种场景下取得了令人印象深刻的表现。鉴于在资源有限的情况下对LLM进行低位量化的广泛应用,我们探索了将LLaMA3量化为低位宽时的能力。这种探索有潜力揭示LLaMA3和其他即将推出的LLM的低位量化的新见解和挑战,特别是在解决LLM压缩中遇到的性能退化问题方面。具体而言,我们评估了LLaMA3的10种现有的后训练量化和LoRA微调方法在1-8位和不同数据集上的表现,以全面揭示LLaMA3的低位量化性能。我们的实验结果表明,在这些情况下,LLaMA3仍然存在非常显著的性能退化,特别是在超低位宽的情况下。这凸显了低位宽下需要弥合的重要性能差距,这需要在未来的发展中加以解决。我们希望这个经验性研究将有助于推动未来模型的发展,以更高的准确性将LLM推向更低的位宽,以实现实用性。我们的项目发布在 https://github.com/Macaronlin/LLaMA3-Quantization,LLaMA3量化模型发布在https://huggingface.co/LLMQ。
  • 图表
  • 解决问题
    本论文旨在探索低位量化对LLaMA3模型性能的影响,特别是在超低位宽下的性能下降问题,以便更好地解决LLM压缩中的性能问题。
  • 关键思路
    本论文通过对LLaMA3模型进行10种不同的后训练量化和LoRA微调方法的评估,发现LLaMA3在低位宽下性能退化严重,尤其是在超低位宽下。研究结果表明,未来需要进一步解决低位量化下的性能差距问题。
  • 其它亮点
    论文使用超过15T个标记的数据对LLaMA3进行了超大规模的预训练,并在1-8位和不同数据集上评估了10种不同的后训练量化和LoRA微调方法对LLaMA3模型的影响。研究结果显示,LLaMA3在低位宽下性能退化严重,尤其是在超低位宽下,需要进一步解决性能差距问题。研究代码和量化后的LLaMA3模型已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》和《Towards the Limit of Network Quantization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论