LPViT: Low-Power Semi-structured Pruning for Vision Transformers

向作者提问

NEW

简介

视觉Transformer已经成为卷积神经网络在各种图像分析任务中的有力替代品，具有相当或更高的性能。然而，ViT的一个重要缺点是资源密集型，导致内存占用量、计算复杂度和功耗增加。为了让这种高性能技术更加环保和民主化，必须压缩ViT模型，减少资源需求同时保持高性能。本文介绍了一种新的块结构剪枝方法，以平衡准确性和硬件加速之间的权衡，来解决ViT的资源密集型问题。与非结构化剪枝或通道结构化剪枝不同，块剪枝利用线性层的块状结构，从而实现更有效的矩阵乘法。为了优化这种剪枝方案，本文提出了一种新的硬件感知学习目标，在推理期间同时最大化加速和最小化功耗，量身定制到块稀疏结构。这个目标消除了经验查找表的需求，只关注减少参数化层连接。此外，本文提供了一种轻量级算法，利用二阶泰勒近似和经验优化来解决所提出的硬件感知目标的后训练剪枝问题。在各种ViT架构上进行了广泛的ImageNet实验，包括DeiT-B和DeiT-S，证明了与其他剪枝方法的竞争性能，并实现了准确性保留和节能之间的显着平衡。特别是，我们在DeiT-B上实现了高达3.93倍和1.79倍的专用硬件和GPU加速，同时观察到实际GPU的推理功耗降低了1.4倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Vision Transformer（ViT）模型的资源密集型问题，提出了一种新的块结构剪枝方法，以在保持高性能的同时减少资源需求。
关键思路

本论文提出的块剪枝方法利用线性层的块状结构，以更高效的矩阵乘法实现剪枝，同时提出了一种面向硬件的学习目标，以同时最大化加速和最小化推理时的功耗，从而实现更好的性能和资源平衡。
其它亮点

本论文在ImageNet数据集上对多种ViT架构进行了广泛实验，展示了与其他剪枝方法相比具有竞争力的性能，并在保持准确性的同时实现了显著的功耗节约。此外，本论文提供了一种轻量级算法来实现后训练剪枝，并使用二阶泰勒近似和经验优化来解决所提出的面向硬件的学习目标。
相关研究

最近的相关研究包括基于通道和层的剪枝方法，以及其他针对ViT的剪枝方法，如Structured ViT和Patch-wise Pruning for Vision Transformers。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问