Compressing Large Language Models by Streamlining the Unimportant Layer

2024年03月28日
  • 简介
    大型语言模型被广泛应用于各种自然语言处理任务和领域,但由于模型参数的数量限制了它们的适用性。因此,越来越多的人开始关注表现高效的紧凑型模型。在本研究中,我们观察到LLM中的不同层对隐藏状态有不同程度的扰动,这使我们能够确定哪些层不太重要。基于这种现象,我们提出了LLM-Streamline,它由两部分组成:层剪枝和层替换。在层剪枝中,我们根据目标稀疏性移除一组连续的最不重要的层;在层替换中,我们训练一个轻量级模型来替换被剪枝的层,从而减轻剪枝造成的性能下降。在实验中,我们使用多层感知器(MLP)和变压器层等结构作为轻量级模型,并最终证明单个MLP可以有效地适应被剪枝的层。全面的实验表明,我们提出的方法LLM-Streamline优于以前的最先进模型剪枝方法。
  • 解决问题
    论文旨在解决大型语言模型参数数量过多的问题,提出一种基于层级重要性的模型压缩方法。
  • 关键思路
    通过观察到大型语言模型中不同层级的隐藏状态的变化程度不同,提出了一种基于层级重要性的模型压缩方法,包括层级剪枝和层级替换。
  • 其它亮点
    论文设计了实验验证了所提出的方法的有效性,并且在多个数据集上进行了测试,证明该方法在模型压缩方面优于其他先前的方法。
  • 相关研究
    近期的相关研究包括:《Learning Sparse Neural Networks through L0 Regularization》、《Importance Estimation for Neural Network Pruning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论