- 简介自然语言处理(NLP)通过变压器模型取得了巨大的成功。然而,该模型有数亿或数十亿个参数,这对于在个人计算机或小型服务器上部署来说是巨大的负担。为了解决这个问题,我们要么使模型的权重矩阵相对更稀疏,要么压缩注意力层。其中,模式修剪是最重要的修剪方法之一,允许在每个分割模式块中选择固定数量的参数并将其修剪。然而,模式修剪的效果严格受到每层权重区域内稀疏性的限制。在本文中,我们首先介绍了基于交替方向乘法器(ADMM)的模式修剪框架,以重塑激活图的分布。具体而言,我们提出将变压器上的模式修剪公式化为约束优化,并使用ADMM来优化问题。通过这种方式,初始的密集特征图被转换为区域性稀疏的特征图。因此,我们可以基于模式修剪方法实现更高的压缩比和更好的性能。此外,本文提供了关于带有局部稀疏性的ADMM的理论推导。最后,我们还将所提出的基于ADMM的框架扩展到量化上,以展示其泛化能力,并使用SR-STE来避免梯度消失问题。我们在GLUE数据集上进行了广泛的分类任务实验。值得注意的是,我们在保持整体得分80.1的情况下实现了50%的压缩比。
-
- 图表
- 解决问题本文旨在解决transformer模型在部署时参数过多的问题,通过ADMM算法实现模式剪枝来提高压缩率和性能。
- 关键思路本文提出了基于ADMM算法的模式剪枝框架,将模式剪枝转化为约束优化问题,并使用ADMM算法优化。通过改变激活图的分布来实现局部稀疏化,从而在模式剪枝方法上实现更高的压缩率和更好的性能。
- 其它亮点本文在GLUE数据集上进行了广泛的实验,实现了50%的压缩率,同时保持了80.1的总体得分。此外,还将ADMM算法框架扩展到量化上,并使用SR-STE来避免梯度消失问题。值得进一步研究。
- 最近的相关研究包括《Structured Pruning of Large Language Models》和《Compressing Transformers with Latent Structures》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流