ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models

简介

本文介绍了大型语言模型（LLM）的高功耗和对延迟敏感的部署，这促使了量化和稀疏等技术的出现。在LLM中，上下文稀疏性是至关重要的，其中稀疏模式取决于输入。由于从LLM中永久删除注意力头或神经元可能会显着降低准确性，因此先前的工作尝试使用神经网络来建模上下文稀疏性，以预测激活幅度，这可以用于动态修剪预测激活幅度较低的结构。本文超越了基于幅度的修剪标准，评估LLM中注意力头和神经元的重要性。我们开发了一种新型预测器ShadowLLM，它可以模拟LLM行为并强制执行更好的稀疏模式，与先前方法相比，端到端准确性提高了15％以上，而不会增加延迟。ShadowLLM比最先进的DejaVu框架快20％。这些增强在具有高达300亿个参数的模型上进行了验证。我们的代码可以在\href{https://github.com/abdelfattah-lab/shadow_llm/}{ShadowLLM}上获得。
图表
解决问题

论文旨在解决大型语言模型（LLMs）的高功耗和延迟敏感部署问题，提出一种新的预测器ShadowLLM，用于更好地实现上下文稀疏性，以提高LLMs的准确性和速度。
关键思路

ShadowLLM预测器可以模拟LLMs的行为并实现更好的稀疏模式，相比于基于激活幅度的剪枝标准，能够更好地评估注意力头和神经元的重要性，从而提高LLMs的准确性和速度。
其它亮点

论文使用了大型语言模型，实验结果表明，ShadowLLM预测器相比于之前的方法可以提高15%的端到端准确性，而且不会增加延迟。ShadowLLM还可以在不影响准确性的情况下提高20%的速度，这些优化在多达300亿参数的模型上得到验证。论文代码已经开源。
相关研究

近期的相关研究包括基于梯度的剪枝算法和基于激活幅度的剪枝算法。

ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models

评论