ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

简介

后训练量化（PTQ）对视觉Transformer（ViTs）的量化已经引起了很大的关注，因为它可以有效压缩模型。然而，现有的方法通常忽视了量化权重和激活之间的复杂相互依赖关系，导致相当大的量化误差。本文提出了ERQ，这是一种精心设计的两步PTQ方法，用于顺序减少由激活和权重量化引起的量化误差。ERQ首先引入了激活量化误差减少（Aqer），它有策略地将激活量化误差的最小化制定为岭回归问题，并通过使用全精度更新权重来解决它。随后，ERQ引入了权重量化误差减少（Wqer），它采用迭代方法来减轻由权重量化引起的量化误差。在每次迭代中，使用经验推导的有效代理来优化量化权重的舍入方向，同时采用岭回归求解器来限制权重量化误差。实验结果证明了我们方法的有效性。值得注意的是，ERQ在W3A4 ViT-S的准确性方面比最先进的GPTQ高出22.36%。
图表
解决问题

本论文旨在解决视觉Transformer（ViT）的后训练量化（PTQ）中存在的量化误差问题，提出了一种两步PTQ方法ERQ，以逐步减少由激活和权重量化引起的量化误差。
关键思路

ERQ采用两步策略，首先通过引入Aqer来最小化激活量化误差，然后采用Wqer来减少权重量化误差。Wqer采用迭代方法，使用经验推导的高效代理来改善量化权重的舍入方向，同时采用Ridge回归求解器来减少权重量化误差。
其它亮点

实验结果表明，ERQ在W3A4 ViT-S上的准确性比当前最先进的GPTQ高出22.36%。
相关研究

与本论文相关的研究包括GPTQ等。

ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

评论