Comprehensive Survey of Model Compression and Speed up for Vision Transformers

简介

Vision Transformers（ViT）已经在计算机视觉领域标志着一次范式转变，超过了各种任务中最先进的模型。然而，它们的实际部署受到高计算和内存需求的限制。本研究通过评估四种主要的模型压缩技术：量化、低秩逼近、知识蒸馏和剪枝来解决这个挑战。我们系统地分析和比较这些技术及其组合在优化ViT以适应资源受限环境方面的效力。我们全面的实验评估表明，这些方法在模型准确性和计算效率之间提供了一种平衡的折中，为在边缘计算设备中更广泛的应用铺平了道路。
图表
解决问题

本论文旨在解决Vision Transformers在计算和内存需求方面的问题，以便在资源受限的环境中更广泛地应用。
关键思路

本文采用四种主要的模型压缩技术：量化、低秩逼近、知识蒸馏和剪枝，以优化Vision Transformers的计算效率和模型精度。
其它亮点

本文通过实验评估了这些技术及其组合在优化Vision Transformers方面的有效性，展示了这些方法在模型精度和计算效率之间取得了平衡的折衷方案。本文的实验设计详细，使用了多个数据集，并且开源了代码。
相关研究

最近的相关研究包括：'Training TinyML Models with Subword Embeddings and Low-Rank Encodings'、'EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks'、'MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications'等。

Comprehensive Survey of Model Compression and Speed up for Vision Transformers

评论