Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization

简介

这项工作建议从根本上重新考虑当前修剪大型语言模型（LLMs）的做法。现在的做法是通过分而治之：将模型分成子模型，逐个修剪它们，然后逐个在小型校准数据上重建密集对应模型的预测；最终模型是通过简单地将得到的稀疏子模型组合在一起获得的。虽然这种方法使得在内存限制下进行修剪成为可能，但它会产生高重建误差。在这项工作中，我们首先提出了一系列重建技术，可以将这种误差显著降低超过90%。然而，我们无意中发现，最小化重建误差并不总是理想的，它可能会过度拟合给定的校准数据，导致语言困惑度增加并在下游任务中表现不佳。我们发现，自动生成校准数据的策略可以缓解重建和泛化之间的这种权衡，为修剪LLMs的重建带来了利益和风险的新方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决LLMs修剪中存在的高重构误差和泛化性能降低的问题，并探索自动生成标定数据的策略。
关键思路

本文提出了一系列重构技术来降低重构误差，并发现最小化重构误差并不总是理想的，可能导致过拟合和性能降低。因此，本文探索了自动生成标定数据的策略来平衡重构和泛化之间的权衡。
其它亮点

本文的实验表明，自动生成标定数据的策略可以显著提高修剪后模型的泛化性能。此外，本文提出的重构技术可以将重构误差降低超过90％。本文使用了大型语言模型进行实验，并开源了代码。
相关研究

最近的相关研究包括《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》和《Learning both Weights and Connections for Efficient Neural Networks》。

Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization

提问交流

提问交流