- 简介大型语言模型(LLMs)已经改变了自然语言处理,但由于高运行成本,它们在广泛部署方面面临着重大挑战。本文介绍了SeedLM,一种新的后训练压缩方法,它使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重块,我们找到一个种子,在推理过程中将其输入到线性反馈移位寄存器(LFSR)中,以高效地生成随机矩阵。然后将该矩阵与压缩系数进行线性组合,以重构权重块。SeedLM减少了内存访问,并利用推理期间的空闲计算周期,通过将计算交换为更少的内存访问来有效地加速内存限制的任务。与依赖校准数据的最先进的压缩方法不同,我们的方法是无数据的,并且在各种任务中具有很好的泛化性能。我们针对特别难以压缩的Llama 370B进行的实验表明,SeedLM在4位和3位的零样本准确性保持方面比最先进的技术显着优越,同时保持与FP16基线相当的性能。此外,基于FPGA的测试表明,随着模型大小增加到70B,4位SeedLM比FP16 Llama 2/3基线快4倍。
- 图表
- 解决问题SeedLM试图解决LLMs在广泛部署中遇到的高运行时成本的问题。
- 关键思路SeedLM是一种新的后训练压缩方法,使用伪随机生成器的种子来编码和压缩模型权重。通过在推理期间将种子输入线性反馈移位寄存器(LFSR)中,有效地利用空闲计算周期来减少内存访问,从而交换计算以获得更少的内存访问。
- 其它亮点SeedLM是一种数据无关的压缩方法,可以广泛适用于不同的任务。实验结果表明,SeedLM在零-shot准确性保留方面比现有技术显著更好,在4位和3位时性能与FP16基线相当。此外,基于FPGA的测试表明,随着模型大小增加到70B,4位SeedLM比FP16 Llama 2/3基线快4倍。
- 最近的相关研究包括其他LLM压缩技术,如DistilBERT、Quantization、Pruning等。


提问交流