Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization

简介

近年来，大型语言模型（LLMs）推动了自然语言处理的进步。然而，它们不断增长的规模增加了计算负担，需要在效率和性能之间取得平衡。低秩压缩是一种有前途的技术，通过将权重矩阵分解为两个低秩矩阵的乘积来减少非必要参数。然而，它在LLMs中的应用尚未得到广泛研究。低秩压缩的关键在于低秩分解和低秩维度分配。为了解决LLMs中低秩压缩的挑战，我们对大型模型的低秩特征进行了实证研究。我们提出了一种适用于LLMs的低秩压缩方法。该方法通过汇总协方差矩阵来精确估计特征分布，并使用贝叶斯优化策略来分配低秩维度。在LLaMA-2模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更好，能够维持模型的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型在计算效率和性能之间的平衡问题，提出一种适用于大型语言模型的低秩压缩方法。
关键思路

论文提出了一种低秩压缩方法，通过池化协方差矩阵和贝叶斯优化策略来精确估计特征分布和分配低秩维度。
其它亮点

论文通过实验研究了大型语言模型的低秩特性，提出的低秩压缩方法在相同的压缩比下，比现有的结构化剪枝和低秩压缩技术表现更好。论文使用了LLaMA-2模型进行实验，并开源了代码。
相关研究

最近的相关研究包括《Structured Pruning of Large Language Models》、《Low-Rank Matrix Factorization for Deep Neural Network Training with High-Dimensional Output Targets》等。

Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization

提问交流

提问交流