- 简介大型语言模型(LLM)已广泛应用于各种自然语言任务和领域,但它们的适用性受到模型参数数量的限制。因此,越来越多的关注点放在表现出高性能的紧凑型模型上。在本研究中,我们观察到LLM中的不同层对隐藏状态有不同程度的扰动,这使我们能够确定不重要的层。基于这种现象,我们提出了LLM-Streamline,它由两部分组成:层剪枝,我们根据目标稀疏度删除一组连续的最不重要的层;层替换,我们训练一个轻量级模型来替代被剪枝的层,从而缓解由剪枝引起的性能下降。在我们的实验中,我们利用多层感知机(MLP)和变形金刚层等结构作为轻量级模型,并最终证明单个MLP可以有效地适应被剪枝的层。全面的实验表明,我们提出的方法LLM-Streamline优于先前的最先进模型剪枝方法。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLM)参数过多的问题,提出了一种高效的模型压缩方法。
- 关键思路通过观察LLM中不同层对隐藏状态的扰动程度,确定了不重要的层,并提出了LLM-Streamline方法,包括层剪枝和层替换两个步骤,用轻量级模型替代被删除的层,以缓解压缩对性能的影响。
- 其它亮点论文使用了多层感知器(MLP)和Transformer层作为轻量级模型,证明了单个MLP可以有效地适配被剪枝的层。实验结果表明,LLM-Streamline方法优于之前的SOTA模型压缩方法。
- 与本论文相关的研究包括神经网络模型压缩、剪枝和替代等方面的研究,例如《Learning both Weights and Connections for Efficient Neural Networks》和《Structured Pruning of Large Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢