- 简介多头自注意力(MSA)是视觉Transformer(ViTs)的关键组件,ViTs在各种视觉任务中取得了巨大成功。然而,它们高昂的计算成本和内存占用妨碍了它们在资源受限设备上的部署。传统的剪枝方法只能使用头剪枝来压缩和加速MSA模块,尽管头不是原子单元。为了解决这个问题,我们提出了一种新颖的基于图形的神经元级剪枝方法,结构化神经元级剪枝(SNP)。SNP剪枝具有信息较少的注意力分数的神经元,并消除头之间的冗余。具体而言,它剪枝具有最不具信息量的关注分数的图形连接的查询和键层,同时保留总体关注分数。可以独立剪枝的价值层被剪枝以消除头之间的冗余。我们提出的方法有效地压缩和加速了基于Transformer的模型,适用于边缘设备和服务器处理器。例如,使用SNP的DeiT-Small比原始模型运行速度快3.1倍,并且性能比DeiT-Tiny快21.94%,高1.12%。此外,SNP成功地与传统的头或块剪枝方法相结合。SNP与头剪枝结合可以将DeiT-Base的参数和计算成本压缩80%,在RTX3090上实现3.85倍的更快推理速度,在Jetson Nano上实现4.93倍的更快推理速度。
-
- 图表
- 解决问题本论文旨在解决Vision Transformers(ViTs)在计算成本和内存占用方面的问题,提出了一种新的神经元级剪枝方法,Structured Neuron-level Pruning (SNP),以压缩和加速Transformer-based模型。
- 关键思路SNP方法通过剪枝具有较低信息量的注意力分数的查询和键层,消除头之间的冗余,同时独立剪枝值层以消除头之间的冗余,从而实现了高效的模型压缩和加速。
- 其它亮点实验结果表明,DeiT-Small with SNP比原始模型运行速度快3.1倍,性能比DeiT-Tiny快21.94%,高1.12%。SNP与传统的头部或块剪枝方法相结合,能够将DeiT-Base的参数和计算成本压缩80%,在RTX3090上实现3.85倍的更快推理速度,在Jetson Nano上实现4.93倍的更快推理速度。
- 最近在这个领域中,还有一些相关的研究,如《Head Pruning: Transformer Compression via Relevance and Redundancy Reduction》和《Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流