- 简介目前对于大型语言模型(LLMs)进行“极限”压缩,即将每个参数压缩到1-2位,以便在资源受限设备上高效执行,引起了极大的关注。现有的工作集中在改进一次性量化技术和权重表示上,然而,纯粹的训练后方法在精度与比特宽度之间的权衡方面已经达到了收益递减的状态。最先进的量化方法,如QuIP#和AQLM,包括在有限的校准数据上微调(部分)压缩参数;然而,这种在压缩权重上的微调技术通常仅使用直通估计器(STE),其性能在这种情况下并不好理解。在本文中,我们对于在极限LLM压缩中使用STE提出了质疑,表明它可能是次优的,并对LLMs的量化感知微调策略进行了系统研究。我们提出了PV-Tuning——一个表示无关的框架,它概括并改进了现有的微调策略,并在受限情况下提供了收敛保证。在实践方面,当用于1-2位向量量化时,PV-Tuning优于先前的技术,适用于高性能模型,如Llama和Mistral。使用PV-Tuning,我们实现了Llama 2系列模型的第一个帕累托最优量化,每个参数2位。
- 图表
- 解决问题本文旨在解决对于大型语言模型进行极端压缩(1-2位/参数)时的精度和比特宽度之间的权衡问题,并提出一种新的fine-tuning策略PV-Tuning。
- 关键思路本文质疑了在极端LLM压缩中使用STE的有效性,并提出了一种表示无关的PV-Tuning框架,它可以泛化和改进现有的fine-tuning策略,并在一定情况下提供收敛性保证。
- 其它亮点本文的实验结果表明,当用于1-2位向量量化时,PV-Tuning优于先前的技术,特别是对于Llama和Mistral等高性能模型。使用PV-Tuning,我们在每个参数2位的情况下实现了Llama 2系列模型的第一个Pareto最优量化。
- 与此相关的最近研究包括QuIP#和AQLM等量化方法,以及使用STE的fine-tuning技术。
沙发等你来抢
去评论
评论
沙发等你来抢