- 简介后训练量化(PTQ)对视觉Transformer(ViTs)的量化已经引起了很大的关注,因为它可以有效压缩模型。然而,现有的方法通常忽视了量化权重和激活之间的复杂相互依赖关系,导致相当大的量化误差。本文提出了ERQ,这是一种精心设计的两步PTQ方法,用于顺序减少由激活和权重量化引起的量化误差。ERQ首先引入了激活量化误差减少(Aqer),它有策略地将激活量化误差的最小化制定为岭回归问题,并通过使用全精度更新权重来解决它。随后,ERQ引入了权重量化误差减少(Wqer),它采用迭代方法来减轻由权重量化引起的量化误差。在每次迭代中,使用经验推导的有效代理来优化量化权重的舍入方向,同时采用岭回归求解器来限制权重量化误差。实验结果证明了我们方法的有效性。值得注意的是,ERQ在W3A4 ViT-S的准确性方面比最先进的GPTQ高出22.36%。
- 图表
- 解决问题本论文旨在解决视觉Transformer(ViT)的后训练量化(PTQ)中存在的量化误差问题,提出了一种两步PTQ方法ERQ,以逐步减少由激活和权重量化引起的量化误差。
- 关键思路ERQ采用两步策略,首先通过引入Aqer来最小化激活量化误差,然后采用Wqer来减少权重量化误差。Wqer采用迭代方法,使用经验推导的高效代理来改善量化权重的舍入方向,同时采用Ridge回归求解器来减少权重量化误差。
- 其它亮点实验结果表明,ERQ在W3A4 ViT-S上的准确性比当前最先进的GPTQ高出22.36%。
- 与本论文相关的研究包括GPTQ等。
沙发等你来抢
去评论
评论
沙发等你来抢