When Quantization Affects Confidence of Large Language Models?

2024年05月01日
  • 简介
    最近的研究通过训练后的量化或低比特权重表示,为大型语言模型(LLMs)引入了有效的压缩技术。虽然量化权重提供了存储效率并允许更快的推理,但现有的研究表明,量化可能会损害LLMs的性能并加剧偏见。本研究考虑到语言模型类型和规模等因素对量化损失的贡献,研究了量化模型的置信度和校准性。首先,我们发现使用GPTQ进行4比特的量化会导致对真实标签的置信度降低,不同语言模型之间的影响有所不同。其次,我们观察到在不同规模下对置信度的影响存在波动。最后,我们提出了一个基于置信水平的量化损失解释,表明量化会不成比例地影响那些原本置信度较低的样本。
  • 图表
  • 解决问题
    本文旨在研究量化技术对大型语言模型(LLMs)置信度和校准性的影响,特别是考虑到语言模型类型和规模等因素对量化损失的影响。
  • 关键思路
    本文发现使用GPTQ将模型量化为4位会降低对真实标签的置信度,不同语言模型的影响不同,而且在不同规模下影响也会波动。本文提出了一种基于置信度水平的量化损失解释,表明量化不成比例地影响那些原本置信度较低的样本。
  • 其它亮点
    本文的实验结果表明,量化技术虽然提高了存储效率和推理速度,但可能会影响模型性能和加剧偏差。本文的贡献在于探究了量化对置信度和校准性的影响,提出了一种解释量化损失的方法。实验使用了不同的语言模型和规模,并开源了代码。
  • 相关研究
    最近的相关研究包括使用不同的量化策略来改善量化损失,以及使用其他技术来提高大型语言模型的效率和性能。例如,有研究使用神经网络架构搜索来设计更高效的模型,还有研究使用知识蒸馏来减少模型的规模。相关论文包括“Learning to Quantize Deep Networks: A Fixed-Point Approach”和“Distilling Task-Specific Knowledge from BERT into Simple Neural Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论