- 简介最近的研究显示了一个令人惊讶的结果:大型语言模型(LLM)中一小部分参数异常值对模型的质量起着不成比例的重要作用。尽管LLM包含数十亿个参数,但这些小部分,例如0.01%,仍然转化为数十万个参数。在本研究中,我们揭示了一个更加令人惊讶的发现:仅仅修剪一个参数就能破坏LLM生成文本的能力——使困惑度增加三个数量级,并将零样本准确性降低到随机猜测的水平。我们提出了一种无需数据的方法来识别这些参数,称为超级权重,只需通过模型进行一次前向传播即可实现。此外,我们还发现这些超级权重会引发相应地罕见且大幅激活的异常值,称为超级激活。当以高精度保留这些超级激活时,简单的四舍五入量化可以变得与最先进的方法相媲美。对于权重量化,我们同样发现,通过保留超级权重并裁剪其他权重异常值,四舍五入量化可以扩展到比以前考虑的更大的块大小。为了促进对超级权重的进一步研究,我们为常见的开放源码LLM提供了一个超级权重坐标的索引。
- 图表
- 解决问题该论文探讨了大型语言模型(LLM)中的少量参数对模型性能的极端重要性。具体来说,它研究了即使移除单个参数也能显著降低模型生成文本的能力的问题。这是一个相对较新的问题,尤其是在理解LLM内部机制方面。
- 关键思路论文的关键思路是识别出这些极其重要的参数,称为超级权重(super weights),并提出了一种数据无关的方法来识别这些超级权重,只需一次前向传播即可。此外,论文还发现这些超级权重会导致罕见且大幅度的激活异常值,称为超级激活(super activations)。通过保留这些超级权重和超级激活,可以显著提高量化方法的性能。
- 其它亮点论文的主要亮点包括: - 提出了一种高效的数据无关方法来识别超级权重。 - 发现超级权重和超级激活对模型性能有显著影响。 - 实验表明,保留超级权重和超级激活可以显著提高量化方法的性能,使其接近最先进的水平。 - 提供了一个公开可用的超级权重坐标索引,以促进进一步的研究。 - 论文没有提到具体的实验数据集,但提供了开源代码以支持复现实验。
- 近期在LLM优化和量化方面的相关研究包括: - "Pruning Neural Networks Without Any Data by Iteratively Conserving Synaptic Flow" - "Sparse Quantized Spectral Clustering" - "Bit-Fitting: Bit-Efficient Fine-Tuning of Quantized Transformers" - "Outlier Detection in Deep Learning: A Survey"
沙发等你来抢
去评论
评论
沙发等你来抢