- 简介大型语言模型(LLMs)在困难任务中表现出色,但通常需要大量的内存和计算资源。如何减少LLMs的参数规模已成为研究热点。在本研究中,我们做出了一个重要的观察,即Transformer的多头自注意力(MHA)子层具有明显的低秩结构,而前馈网络(FFN)子层则没有。因此,我们设计了一个混合压缩模型,将低秩矩阵逼近和结构剪枝(LoRAP)有机地结合起来。对于MHA子层,我们提出了一种输入激活加权奇异值分解方法来加强低秩特性。此外,我们发现MHA子层中的权重矩阵具有不同的低秩程度。因此,根据低秩程度的差异设计了一种新的参数分配方案。对于FFN子层,我们提出了一种基于梯度的结构化通道剪枝方法。在剪枝过程中,我们发现最不重要的1%参数实际上在模型性能中起着至关重要的作用。对零-shot困惑度和零-shot任务分类的广泛评估表明,我们的提议在多个压缩比下优于先前的结构化压缩竞争对手。
- 图表
- 解决问题如何降低大型语言模型的参数规模?
- 关键思路本文提出了一种混合压缩模型LoRAP,结合了低秩矩阵逼近和结构剪枝,针对Transformer中的多头自注意力子层(MHA)和前馈网络子层(FFN)分别进行优化。其中,MHA子层具有明显的低秩结构,FFN子层则没有。作者提出了一种加权奇异值分解方法来增强MHA子层的低秩特性,并根据不同权重矩阵的低秩程度设计了参数分配方案。对于FFN子层,作者提出了一种无梯度结构通道剪枝方法。
- 其它亮点本文的实验表明,LoRAP模型在多个压缩比下均优于之前的结构压缩方法。作者还发现,在剪枝过程中,最不重要的1%参数实际上对模型性能起着至关重要的作用。
- 相关研究包括但不限于:《Structured Pruning of Large Language Models》、《Rethinking the Value of Network Pruning》、《Efficient Transformers: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢