ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

2024年07月09日
  • 简介
    后训练量化(PTQ)对视觉Transformer(ViTs)的量化已经引起了很大的关注,因为它可以有效压缩模型。然而,现有的方法通常忽视了量化权重和激活之间的复杂相互依赖关系,导致相当大的量化误差。本文提出了ERQ,这是一种精心设计的两步PTQ方法,用于顺序减少由激活和权重量化引起的量化误差。ERQ首先引入了激活量化误差减少(Aqer),它有策略地将激活量化误差的最小化制定为岭回归问题,并通过使用全精度更新权重来解决它。随后,ERQ引入了权重量化误差减少(Wqer),它采用迭代方法来减轻由权重量化引起的量化误差。在每次迭代中,使用经验推导的有效代理来优化量化权重的舍入方向,同时采用岭回归求解器来限制权重量化误差。实验结果证明了我们方法的有效性。值得注意的是,ERQ在W3A4 ViT-S的准确性方面比最先进的GPTQ高出22.36%。
  • 图表
  • 解决问题
    本论文旨在解决视觉Transformer(ViT)的后训练量化(PTQ)中存在的量化误差问题,提出了一种两步PTQ方法ERQ,以逐步减少由激活和权重量化引起的量化误差。
  • 关键思路
    ERQ采用两步策略,首先通过引入Aqer来最小化激活量化误差,然后采用Wqer来减少权重量化误差。Wqer采用迭代方法,使用经验推导的高效代理来改善量化权重的舍入方向,同时采用Ridge回归求解器来减少权重量化误差。
  • 其它亮点
    实验结果表明,ERQ在W3A4 ViT-S上的准确性比当前最先进的GPTQ高出22.36%。
  • 相关研究
    与本论文相关的研究包括GPTQ等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论