MGRQ: Post-Training Quantization For Vision Transformer With Mixed Granularity Reconstruction

2024年06月13日
  • 简介
    Post-training quantization(PTQ)可以高效地压缩视觉模型,但不幸的是,它会伴随一定程度的精度降低。重构方法旨在通过缩小量化模型和全精度模型之间的差距来提高模型性能,通常会产生有希望的结果。然而,在Vision Transformer(ViT)中通过重构显著提高PTQ性能的努力显示出有限的功效。在本文中,我们对这种有限效果的原因进行了彻底分析,并提出了Mixed Granularity Reconstruction Quantization(MGRQ)作为解决这个问题的解决方案。与以前的重构方案不同,MGRQ引入了混合粒度重构方法。具体而言,MGRQ通过引入Extra-Block Global Supervision和Intra-Block Local Supervision来增强PTQ的性能,并在Optimized Block-wise Reconstruction的基础上构建。Extra-Block Global Supervision考虑块输出与模型输出之间的关系,通过全局监督来帮助块级重构。同时,Intra-Block Local Supervision通过对齐块内每层输出的分布来减少泛化误差。随后,通过Mixed Granularity Loss Fusion进一步优化了MGRQ的重构。在各种ViT模型上进行的大量实验证明了MGRQ的有效性。值得注意的是,MGRQ在低位量化中表现出稳健的性能,从而提高了量化模型的实用性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决Post-training quantization(PTQ)在压缩视觉模型时会伴随着一定程度的精度降低的问题,并提出一种Mixed Granularity Reconstruction Quantization(MGRQ)的解决方案。
  • 关键思路
    MGRQ引入混合粒度重构方法,通过Extra-Block Global Supervision和Intra-Block Local Supervision两种方法提高PTQ的性能,并通过Mixed Granularity Loss Fusion进一步优化重构。
  • 其它亮点
    论文在多个ViT模型上进行了广泛的实验,证明了MGRQ的有效性,尤其是在低位量化方面表现稳健。论文开源了代码,值得深入研究。
  • 相关研究
    与本论文相关的研究包括:Towards Accurate Post-Training Quantization with Knowledge Distillation、Optimized Block-wise Neural Network Quantization、Training Quantized Neural Networks with a Full-Precision Auxiliary Module等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问