Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models

简介

大型语言模型（LLMs）的快速发展显著增强了语言理解和生成的能力。然而，庞大的模型大小带来了硬件挑战，影响了用于服务的内存大小和用于标记生成的推理延迟。为了解决这些挑战，我们提出了依赖感知的半结构稀疏（DaSS）方法，这是一种新颖的用于最近流行的基于SwiGLU的LLMs剪枝的方法。我们的方法将结构依赖性纳入基于权重大小的非结构化剪枝中。我们引入了一个MLP特定的剪枝度量，通过同时考虑权重的大小和其对应的MLP中间激活规范来评估每个权重的重要性。DaSS在非结构化剪枝所提供的适应性和基于依赖性的结构化剪枝所固有的结构一致性之间提供了平衡。对Mistral和LLaMA2模型族的实证评估表明，DaSS不仅在实现硬件友好的N:M稀疏模式方面优于SparseGPT和Wanda，而且还保持了Wanda的计算效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型的硬件挑战，提出了一种新的方法DaSS来优化SwiGLU-based LLMs的剪枝。
关键思路

DaSS方法将结构依赖性纳入基于权重大小的非结构化剪枝中，引入了一个MLP特定的剪枝指标，同时考虑权重大小和相应的MLP中间激活规范，以实现适应性和结构一致性的平衡。
其它亮点

论文的实验结果表明，DaSS不仅在实现硬件友好的N:M稀疏模式方面优于SparseGPT和Wanda，而且还保持了Wanda的计算效率。论文还提供了开源代码。
相关研究

与此相关的研究包括Sparse Transformer、Sparse Gated Sequence Unit和Wanda等。

Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models

提问交流

提问交流