ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

简介

随着大型语言模型（LLMs）性能的不断提高，它们的规模显著增加，目前的LLMs包含数十亿甚至数万亿个参数。然而，在这项研究中，我们发现LLMs的许多层具有高度相似性，而一些层在网络功能中起到可忽略的作用。基于这一观察，我们定义了一个称为块影响（BI）的指标来衡量LLMs中每个层的重要性。然后，我们提出了一种简单的修剪方法：层删除，即根据它们的BI分数直接删除LLMs中的冗余层。实验证明，我们的方法，称为ShortGPT，在模型修剪方面显著优于以前的最先进方法（SOTA）。此外，ShortGPT与量化类方法是正交的，可以进一步减少参数和计算。通过简单的层删除而不是更复杂的修剪技术来实现更好的结果，表明模型架构存在高度冗余。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决大型语言模型（LLMs）参数数量庞大的问题，提出一种简单的剪枝方法以减少模型中冗余的层数。
关键思路

通过计算每个层的Block Influence（BI）指标来评估层的重要性，并直接删除冗余的层，从而实现模型的剪枝。
其它亮点

论文提出的剪枝方法（ShortGPT）在模型剪枝方面表现优异，比之前的最先进方法表现更好。同时，该方法与量化方法相互独立，可以进一步减少参数和计算量。实验使用了多个数据集，并开源了代码。
相关研究

最近的相关研究包括《Rethinking the Value of Network Pruning》和《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等。

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

提问交流

提问交流