Compact Language Models via Pruning and Knowledge Distillation

2024年07月19日
  • 简介
    本文研究了对现有的大型语言模型 (LLMs) 进行剪枝,然后使用原始训练数据的一小部分 (<3%) 进行重新训练,是否可以成为重复全面重新训练的合适替代方法,以减少计算量。为此,我们开发了一组实用和有效的 LLM 压缩最佳实践,将深度、宽度、注意力和 MLP 剪枝与基于知识蒸馏的重新训练相结合;我们通过详细的经验探索,为每个轴的剪枝策略、轴的组合方法、蒸馏策略和搜索技术,确定了这些最佳实践,以到达最优的压缩架构。我们使用这个指南将 Nemotron-4 系列的 LLM 压缩了 2-4 倍,并将它们的性能与相似大小的模型在各种语言建模任务上进行了比较。使用我们的方法从已经预训练的 15B 模型中派生 8B 和 4B 模型,每个模型需要的训练令牌比从头开始训练少多达 40 倍;这导致训练整个模型族 (15B、8B 和 4B) 的计算成本节省了 1.8 倍。与从头开始训练相比,Minitron 模型的 MMLU 分数提高了多达 16%,在性能上与其他社区模型(如 Mistral 7B、Gemma 7B 和 Llama-3 8B)相当,并优于文献中的最先进的压缩技术。我们已经在 Huggingface 上开源了 Minitron 模型权重,并提供了相应的补充材料,包括在 GitHub 上可用的示例代码。
  • 图表
  • 解决问题
    本文旨在探讨将已有的大型语言模型(LLMs)进行修剪并重新训练的可行性,以替代重复全面重新训练的计算密集型方法。
  • 关键思路
    通过详细的经验探索,本文提出了一组实用且有效的LLMs压缩最佳实践,包括深度、宽度、注意力和MLP修剪,以及基于知识蒸馏的重新训练。
  • 其它亮点
    本文使用了Nemotron-4系列LLMs进行压缩,并将其性能与类似大小的模型在各种语言建模任务中进行比较。使用本文的方法从预训练的15B模型中衍生出8B和4B模型,相比从头开始训练,需要的训练令牌数量少40倍,计算成本节约1.8倍。Minitron模型的MMLU分数比从头开始训练的模型提高了16%,并且优于文献中的最新压缩技术。本文已在Huggingface上开源Minitron模型权重,并在GitHub上提供了相应的补充材料和示例代码。
  • 相关研究
    最近的相关研究包括《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》、《Pruning Convolutional Neural Networks for Resource Efficient Inference》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论