- 简介大型生成模型,例如大型语言模型(LLMs)和扩散模型已经在自然语言处理和计算机视觉领域引起了革命。然而,它们的推理速度缓慢、计算和内存需求高,使得在边缘设备上部署它们具有挑战性。在本研究中,我们提出了一种轻量级量化感知微调技术,使用知识蒸馏(KD-QAT)来改善4位权重量化LLMs的性能,使用常见可用数据集来实现流行的语言使用案例,即设备上的聊天应用程序。为了改善这种微调范式,我们提供了关于KD-QAT稳定性的见解,通过经验研究训练期间的梯度传播,以更好地理解基于KD-QAT的方法对低位量化误差的脆弱性。基于我们的见解,我们提出了ov-freeze,一种简单的技术来稳定KD-QAT过程。最后,我们在4位量化级别上使用流行的7B LLaMAv2-Chat模型进行实验,并证明ov-freeze可以实现接近浮点精度的性能,即在常识推理基准测试中准确度损失不到0.7%。
- 图表
- 解决问题本论文旨在解决大型生成模型在边缘设备上的部署问题,提出了一种轻量级的量化感知微调技术,使用知识蒸馏来提高4位权重量化的LLMs的性能,以实现在设备聊天应用程序中的流行语言使用情况。
- 关键思路本论文提出了一种KD-QAT技术来改进4位量化LLMs的性能,使用ov-freeze技术来稳定KD-QAT过程,并在常识推理基准测试中展示了近似浮点精度的性能。
- 其它亮点本论文提供了关于KD-QAT稳定性的见解,提出了ov-freeze技术来解决低位量化误差的问题。实验使用了常见数据集,并展示了在4位量化水平下的性能。
- 最近的相关研究包括基于知识蒸馏的模型压缩技术,如Hinton等人的Distillation方法,以及其他的量化技术,如DoReFa-Net和WRPN。
沙发等你来抢
去评论
评论
沙发等你来抢