ADMM Based Semi-Structured Pattern Pruning Framework For Transformer

2024年07月11日
  • 简介
    自然语言处理(NLP)通过变压器模型取得了巨大的成功。然而,该模型有数亿或数十亿个参数,这对于在个人计算机或小型服务器上部署来说是巨大的负担。为了解决这个问题,我们要么使模型的权重矩阵相对更稀疏,要么压缩注意力层。其中,模式修剪是最重要的修剪方法之一,允许在每个分割模式块中选择固定数量的参数并将其修剪。然而,模式修剪的效果严格受到每层权重区域内稀疏性的限制。在本文中,我们首先介绍了基于交替方向乘法器(ADMM)的模式修剪框架,以重塑激活图的分布。具体而言,我们提出将变压器上的模式修剪公式化为约束优化,并使用ADMM来优化问题。通过这种方式,初始的密集特征图被转换为区域性稀疏的特征图。因此,我们可以基于模式修剪方法实现更高的压缩比和更好的性能。此外,本文提供了关于带有局部稀疏性的ADMM的理论推导。最后,我们还将所提出的基于ADMM的框架扩展到量化上,以展示其泛化能力,并使用SR-STE来避免梯度消失问题。我们在GLUE数据集上进行了广泛的分类任务实验。值得注意的是,我们在保持整体得分80.1的情况下实现了50%的压缩比。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决transformer模型在部署时参数过多的问题,通过ADMM算法实现模式剪枝来提高压缩率和性能。
  • 关键思路
    本文提出了基于ADMM算法的模式剪枝框架,将模式剪枝转化为约束优化问题,并使用ADMM算法优化。通过改变激活图的分布来实现局部稀疏化,从而在模式剪枝方法上实现更高的压缩率和更好的性能。
  • 其它亮点
    本文在GLUE数据集上进行了广泛的实验,实现了50%的压缩率,同时保持了80.1的总体得分。此外,还将ADMM算法框架扩展到量化上,并使用SR-STE来避免梯度消失问题。值得进一步研究。
  • 相关研究
    最近的相关研究包括《Structured Pruning of Large Language Models》和《Compressing Transformers with Latent Structures》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问