LLM Pruning and Distillation in Practice: The Minitron Approach

简介

我们提供了一份关于使用修剪和蒸馏技术将Llama 3.1 8B和Mistral NeMo 12B模型压缩至4B和8B参数的全面报告。我们探索了两种不同的修剪策略：(1)深度修剪和(2)联合隐藏/注意力/MLP（宽度）修剪，并在LM Evaluation Harness的常见基准测试中评估了结果。然后，我们使用NeMo Aligner将模型对齐，并在instruct-tuned版本中进行测试。这种方法从Llama 3.1 8B中产生了一个引人注目的4B模型，从Mistral NeMo 12B中产生了一个最先进的Mistral-NeMo-Minitron-8B（MN-Minitron-8B）模型。我们发现，在没有访问原始数据的情况下，对蒸馏数据集进行轻微微调教教师模型是有益的。我们在Hugging Face上以宽松的许可证开源了我们的基础模型权重。
图表
解决问题

本论文旨在通过剪枝和蒸馏方法将Llama 3.1 8B和Mistral NeMo 12B模型压缩为4B和8B参数，以解决模型压缩的问题。
关键思路

本论文提出了两种不同的剪枝策略：深度剪枝和联合隐藏/注意力/MLP（宽度）剪枝，并在LM Evaluation Harness的常见基准上评估结果。同时使用NeMo Aligner对模型进行对齐，并在蒸馏数据集上微调教师模型，以产生令人信服的4B模型和最先进的Mistral-NeMo-Minitron-8B（MN-Minitron-8B）模型。
其它亮点

本论文开源了基础模型权重，并使用了Hugging Face的许可证。实验设计充分，使用了常见基准数据集，并且在蒸馏数据集上进行了微调。本论文提出的剪枝和蒸馏方法可以在不访问原始数据的情况下实现模型压缩。
相关研究

在这个领域中，最近的相关研究包括：《Learning Sparse Neural Networks through L0 Regularization》、《Structured Pruning of Large Language Models》等。

LLM Pruning and Distillation in Practice: The Minitron Approach

评论