- 简介本文介绍了一种名为SpinQuant的技术,用于优化(或学习)旋转矩阵,以便在权重、激活和KV缓存的4位量化下,最大程度地缩小与完全精度模型的零-shot推理任务的准确度差距。该技术使用Cayley优化方法在小型验证集上进行训练,可以识别一系列适用的旋转参数化,这些参数化在完全精度的Transformer架构中产生相同的输出。研究发现,某些随机旋转比其他旋转更适合量化,差异可达13个点。最终,SpinQuant在LLaMA-2 7B模型上的零-shot推理任务中,将准确度差距缩小到仅有2.9个点,超过LLM-QAT 19.1个点和SmoothQuant 25.0个点,同时也优于QuaRot。对于难以量化的LLaMA-2 7B/LLaMA-3 8B模型,SpinQuant相对于QuaRot将准确度差距缩小了30.2%/34.1%。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLM)在进行后训练量化(PTQ)时,由于存在离群值而导致量化误差较大的问题。
- 关键思路论文提出了一种名为SpinQuant的方法,通过对旋转矩阵进行Cayley优化来优化(或学习)旋转矩阵,以减少离群值对量化结果的影响。
- 其它亮点实验结果表明,SpinQuant方法在4位量化的权重、激活和KV缓存下,相对于全精度的结果,能够将量化误差缩小至仅有2.9个点,比LLM-QAT和SmoothQuant方法分别提高了19.1和25.0个点。同时,SpinQuant方法也优于QuaRot方法,特别是对于难以量化的LLaMA-2 7B / LLaMA-3 8B模型,SpinQuant方法相对于QuaRot方法将误差缩小了30.2%/ 34.1%。
- 与本论文相关的研究包括LLM-QAT和SmoothQuant方法,以及QuaRot方法。
沙发等你来抢
去评论
评论
沙发等你来抢