ADMM Based Semi-Structured Pattern Pruning Framework For Transformer

简介

自然语言处理(NLP)通过变压器模型取得了巨大的成功。然而，该模型有数亿或数十亿个参数，这对于在个人计算机或小型服务器上部署来说是巨大的负担。为了解决这个问题，我们要么使模型的权重矩阵相对更稀疏，要么压缩注意力层。其中，模式修剪是最重要的修剪方法之一，允许在每个分割模式块中选择固定数量的参数并将其修剪。然而，模式修剪的效果严格受到每层权重区域内稀疏性的限制。在本文中，我们首先介绍了基于交替方向乘法器(ADMM)的模式修剪框架，以重塑激活图的分布。具体而言，我们提出将变压器上的模式修剪公式化为约束优化，并使用ADMM来优化问题。通过这种方式，初始的密集特征图被转换为区域性稀疏的特征图。因此，我们可以基于模式修剪方法实现更高的压缩比和更好的性能。此外，本文提供了关于带有局部稀疏性的ADMM的理论推导。最后，我们还将所提出的基于ADMM的框架扩展到量化上，以展示其泛化能力，并使用SR-STE来避免梯度消失问题。我们在GLUE数据集上进行了广泛的分类任务实验。值得注意的是，我们在保持整体得分80.1的情况下实现了50%的压缩比。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决transformer模型在部署时参数过多的问题，通过ADMM算法实现模式剪枝来提高压缩率和性能。
关键思路

本文提出了基于ADMM算法的模式剪枝框架，将模式剪枝转化为约束优化问题，并使用ADMM算法优化。通过改变激活图的分布来实现局部稀疏化，从而在模式剪枝方法上实现更高的压缩率和更好的性能。
其它亮点

本文在GLUE数据集上进行了广泛的实验，实现了50%的压缩率，同时保持了80.1的总体得分。此外，还将ADMM算法框架扩展到量化上，并使用SR-STE来避免梯度消失问题。值得进一步研究。
相关研究

最近的相关研究包括《Structured Pruning of Large Language Models》和《Compressing Transformers with Latent Structures》等。

ADMM Based Semi-Structured Pattern Pruning Framework For Transformer

提问交流

提问交流