Comprehensive Survey of Model Compression and Speed up for Vision Transformers

Journal of Information, Technology and Policy (2024): 1-12
2024年04月16日
  • 简介
    Vision Transformers(ViT)已经在计算机视觉领域标志着一次范式转变,超过了各种任务中最先进的模型。然而,它们的实际部署受到高计算和内存需求的限制。本研究通过评估四种主要的模型压缩技术:量化、低秩逼近、知识蒸馏和剪枝来解决这个挑战。我们系统地分析和比较这些技术及其组合在优化ViT以适应资源受限环境方面的效力。我们全面的实验评估表明,这些方法在模型准确性和计算效率之间提供了一种平衡的折中,为在边缘计算设备中更广泛的应用铺平了道路。
  • 图表
  • 解决问题
    本论文旨在解决Vision Transformers在计算和内存需求方面的问题,以便在资源受限的环境中更广泛地应用。
  • 关键思路
    本文采用四种主要的模型压缩技术:量化、低秩逼近、知识蒸馏和剪枝,以优化Vision Transformers的计算效率和模型精度。
  • 其它亮点
    本文通过实验评估了这些技术及其组合在优化Vision Transformers方面的有效性,展示了这些方法在模型精度和计算效率之间取得了平衡的折衷方案。本文的实验设计详细,使用了多个数据集,并且开源了代码。
  • 相关研究
    最近的相关研究包括:'Training TinyML Models with Subword Embeddings and Low-Rank Encodings'、'EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks'、'MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论