ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

2024年03月06日
  • 简介
    随着大型语言模型(LLMs)性能的不断提高,它们的规模显著增加,目前的LLMs包含数十亿甚至数万亿个参数。然而,在这项研究中,我们发现LLMs的许多层具有高度相似性,而一些层在网络功能中起到可忽略的作用。基于这一观察,我们定义了一个称为块影响(BI)的指标来衡量LLMs中每个层的重要性。然后,我们提出了一种简单的修剪方法:层删除,即根据它们的BI分数直接删除LLMs中的冗余层。实验证明,我们的方法,称为ShortGPT,在模型修剪方面显著优于以前的最先进方法(SOTA)。此外,ShortGPT与量化类方法是正交的,可以进一步减少参数和计算。通过简单的层删除而不是更复杂的修剪技术来实现更好的结果,表明模型架构存在高度冗余。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图解决大型语言模型(LLMs)参数数量庞大的问题,提出一种简单的剪枝方法以减少模型中冗余的层数。
  • 关键思路
    通过计算每个层的Block Influence(BI)指标来评估层的重要性,并直接删除冗余的层,从而实现模型的剪枝。
  • 其它亮点
    论文提出的剪枝方法(ShortGPT)在模型剪枝方面表现优异,比之前的最先进方法表现更好。同时,该方法与量化方法相互独立,可以进一步减少参数和计算量。实验使用了多个数据集,并开源了代码。
  • 相关研究
    最近的相关研究包括《Rethinking the Value of Network Pruning》和《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问