Compressing Large Language Models by Streamlining the Unimportant Layer

2024年03月28日
  • 简介
    大型语言模型(LLM)已广泛应用于各种自然语言任务和领域,但它们的适用性受到模型参数数量的限制。因此,越来越多的关注点放在表现出高性能的紧凑型模型上。在本研究中,我们观察到LLM中的不同层对隐藏状态有不同程度的扰动,这使我们能够确定不重要的层。基于这种现象,我们提出了LLM-Streamline,它由两部分组成:层剪枝,我们根据目标稀疏度删除一组连续的最不重要的层;层替换,我们训练一个轻量级模型来替代被剪枝的层,从而缓解由剪枝引起的性能下降。在我们的实验中,我们利用多层感知机(MLP)和变形金刚层等结构作为轻量级模型,并最终证明单个MLP可以有效地适应被剪枝的层。全面的实验表明,我们提出的方法LLM-Streamline优于先前的最先进模型剪枝方法。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLM)参数过多的问题,提出了一种高效的模型压缩方法。
  • 关键思路
    通过观察LLM中不同层对隐藏状态的扰动程度,确定了不重要的层,并提出了LLM-Streamline方法,包括层剪枝和层替换两个步骤,用轻量级模型替代被删除的层,以缓解压缩对性能的影响。
  • 其它亮点
    论文使用了多层感知器(MLP)和Transformer层作为轻量级模型,证明了单个MLP可以有效地适配被剪枝的层。实验结果表明,LLM-Streamline方法优于之前的SOTA模型压缩方法。
  • 相关研究
    与本论文相关的研究包括神经网络模型压缩、剪枝和替代等方面的研究,例如《Learning both Weights and Connections for Efficient Neural Networks》和《Structured Pruning of Large Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论