Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models

2024年03月26日
  • 简介
    大型生成模型,例如大型语言模型(LLMs)和扩散模型已经在自然语言处理和计算机视觉领域引起了革命。然而,它们的推理速度缓慢、计算和内存需求高,使得在边缘设备上部署它们具有挑战性。在本研究中,我们提出了一种轻量级量化感知微调技术,使用知识蒸馏(KD-QAT)来改善4位权重量化LLMs的性能,使用常见可用数据集来实现流行的语言使用案例,即设备上的聊天应用程序。为了改善这种微调范式,我们提供了关于KD-QAT稳定性的见解,通过经验研究训练期间的梯度传播,以更好地理解基于KD-QAT的方法对低位量化误差的脆弱性。基于我们的见解,我们提出了ov-freeze,一种简单的技术来稳定KD-QAT过程。最后,我们在4位量化级别上使用流行的7B LLaMAv2-Chat模型进行实验,并证明ov-freeze可以实现接近浮点精度的性能,即在常识推理基准测试中准确度损失不到0.7%。
  • 图表
  • 解决问题
    本论文旨在解决大型生成模型在边缘设备上的部署问题,提出了一种轻量级的量化感知微调技术,使用知识蒸馏来提高4位权重量化的LLMs的性能,以实现在设备聊天应用程序中的流行语言使用情况。
  • 关键思路
    本论文提出了一种KD-QAT技术来改进4位量化LLMs的性能,使用ov-freeze技术来稳定KD-QAT过程,并在常识推理基准测试中展示了近似浮点精度的性能。
  • 其它亮点
    本论文提供了关于KD-QAT稳定性的见解,提出了ov-freeze技术来解决低位量化误差的问题。实验使用了常见数据集,并展示了在4位量化水平下的性能。
  • 相关研究
    最近的相关研究包括基于知识蒸馏的模型压缩技术,如Hinton等人的Distillation方法,以及其他的量化技术,如DoReFa-Net和WRPN。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论