Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization

2024年06月21日
  • 简介
    这项工作建议从根本上重新考虑当前修剪大型语言模型(LLMs)的做法。现在的做法是通过分而治之:将模型分成子模型,逐个修剪它们,然后逐个在小型校准数据上重建密集对应模型的预测;最终模型是通过简单地将得到的稀疏子模型组合在一起获得的。虽然这种方法使得在内存限制下进行修剪成为可能,但它会产生高重建误差。在这项工作中,我们首先提出了一系列重建技术,可以将这种误差显著降低超过90%。然而,我们无意中发现,最小化重建误差并不总是理想的,它可能会过度拟合给定的校准数据,导致语言困惑度增加并在下游任务中表现不佳。我们发现,自动生成校准数据的策略可以缓解重建和泛化之间的这种权衡,为修剪LLMs的重建带来了利益和风险的新方向。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决LLMs修剪中存在的高重构误差和泛化性能降低的问题,并探索自动生成标定数据的策略。
  • 关键思路
    本文提出了一系列重构技术来降低重构误差,并发现最小化重构误差并不总是理想的,可能导致过拟合和性能降低。因此,本文探索了自动生成标定数据的策略来平衡重构和泛化之间的权衡。
  • 其它亮点
    本文的实验表明,自动生成标定数据的策略可以显著提高修剪后模型的泛化性能。此外,本文提出的重构技术可以将重构误差降低超过90%。本文使用了大型语言模型进行实验,并开源了代码。
  • 相关研究
    最近的相关研究包括《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》和《Learning both Weights and Connections for Efficient Neural Networks》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问