- 简介随着大型语言模型(LLMs)性能的不断提高,它们的规模显著增加,目前的LLMs包含数十亿甚至数万亿个参数。然而,在这项研究中,我们发现LLMs的许多层具有高度相似性,而一些层在网络功能中起到可忽略的作用。基于这一观察,我们定义了一个称为块影响(BI)的指标来衡量LLMs中每个层的重要性。然后,我们提出了一种简单的修剪方法:层删除,即根据它们的BI分数直接删除LLMs中的冗余层。实验证明,我们的方法,称为ShortGPT,在模型修剪方面显著优于以前的最先进方法(SOTA)。此外,ShortGPT与量化类方法是正交的,可以进一步减少参数和计算。通过简单的层删除而不是更复杂的修剪技术来实现更好的结果,表明模型架构存在高度冗余。
-
- 图表
- 解决问题本论文试图解决大型语言模型(LLMs)参数数量庞大的问题,提出一种简单的剪枝方法以减少模型中冗余的层数。
- 关键思路通过计算每个层的Block Influence(BI)指标来评估层的重要性,并直接删除冗余的层,从而实现模型的剪枝。
- 其它亮点论文提出的剪枝方法(ShortGPT)在模型剪枝方面表现优异,比之前的最先进方法表现更好。同时,该方法与量化方法相互独立,可以进一步减少参数和计算量。实验使用了多个数据集,并开源了代码。
- 最近的相关研究包括《Rethinking the Value of Network Pruning》和《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流