Compressing Large Language Models by Streamlining the Unimportant Layer

简介

大型语言模型（LLM）已广泛应用于各种自然语言任务和领域，但它们的适用性受到模型参数数量的限制。因此，越来越多的关注点放在表现出高性能的紧凑型模型上。在本研究中，我们观察到LLM中的不同层对隐藏状态有不同程度的扰动，这使我们能够确定不重要的层。基于这种现象，我们提出了LLM-Streamline，它由两部分组成：层剪枝，我们根据目标稀疏度删除一组连续的最不重要的层；层替换，我们训练一个轻量级模型来替代被剪枝的层，从而缓解由剪枝引起的性能下降。在我们的实验中，我们利用多层感知机（MLP）和变形金刚层等结构作为轻量级模型，并最终证明单个MLP可以有效地适应被剪枝的层。全面的实验表明，我们提出的方法LLM-Streamline优于先前的最先进模型剪枝方法。
图表
解决问题

本论文旨在解决大型语言模型（LLM）参数过多的问题，提出了一种高效的模型压缩方法。
关键思路

通过观察LLM中不同层对隐藏状态的扰动程度，确定了不重要的层，并提出了LLM-Streamline方法，包括层剪枝和层替换两个步骤，用轻量级模型替代被删除的层，以缓解压缩对性能的影响。
其它亮点

论文使用了多层感知器（MLP）和Transformer层作为轻量级模型，证明了单个MLP可以有效地适配被剪枝的层。实验结果表明，LLM-Streamline方法优于之前的SOTA模型压缩方法。
相关研究

与本论文相关的研究包括神经网络模型压缩、剪枝和替代等方面的研究，例如《Learning both Weights and Connections for Efficient Neural Networks》和《Structured Pruning of Large Language Models》等。

Compressing Large Language Models by Streamlining the Unimportant Layer

评论