- 简介这项工作建议从根本上重新考虑当前修剪大型语言模型(LLMs)的做法。现在的做法是通过分而治之:将模型分成子模型,逐个修剪它们,然后逐个在小型校准数据上重建密集对应模型的预测;最终模型是通过简单地将得到的稀疏子模型组合在一起获得的。虽然这种方法使得在内存限制下进行修剪成为可能,但它会产生高重建误差。在这项工作中,我们首先提出了一系列重建技术,可以将这种误差显著降低超过90%。然而,我们无意中发现,最小化重建误差并不总是理想的,它可能会过度拟合给定的校准数据,导致语言困惑度增加并在下游任务中表现不佳。我们发现,自动生成校准数据的策略可以缓解重建和泛化之间的这种权衡,为修剪LLMs的重建带来了利益和风险的新方向。
-
- 图表
- 解决问题本文试图解决LLMs修剪中存在的高重构误差和泛化性能降低的问题,并探索自动生成标定数据的策略。
- 关键思路本文提出了一系列重构技术来降低重构误差,并发现最小化重构误差并不总是理想的,可能导致过拟合和性能降低。因此,本文探索了自动生成标定数据的策略来平衡重构和泛化之间的权衡。
- 其它亮点本文的实验表明,自动生成标定数据的策略可以显著提高修剪后模型的泛化性能。此外,本文提出的重构技术可以将重构误差降低超过90%。本文使用了大型语言模型进行实验,并开源了代码。
- 最近的相关研究包括《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》和《Learning both Weights and Connections for Efficient Neural Networks》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流