- 简介我们引入了DeltaLLM,这是一种新的后训练压缩技术,旨在减少大型语言模型(LLM)的内存占用。我们提出了一种替代性的LLM结构方法,在后续的Transformer块之间实现层权重共享,并在它们之间添加低秩差分矩阵。在训练过程中,我们采用了渐进模块替换方法,并证明了使用大约3000万到4000万个标记对低秩模块进行轻量级训练,足以达到与从头开始训练的同类规模LLM相当的性能。我们发布了由此产生的模型DeltaLLAMA和DeltaPHI,这些模型参数减少了12%,但在常见的知识和推理基准测试中仍保留了基础Llama和Phi模型90%的性能。我们的方法在同一数量参数减少的情况下,也优于JointDrop、LaCo、ShortGPT和SliceGPT等压缩技术。例如,尽管参数减少了约4亿且未进行微调,DeltaPhi 2.9B在参数减少24%的情况下,其平均零样本准确率与经过恢复微调的SlicedPhi 3.3B(参数减少12%)相似。这项工作为在存储空间至关重要的情况下,LLM架构设计和压缩方法提供了新的见解。
- 图表
- 解决问题论文试图解决大型语言模型(LLM)在实际应用中面临的存储空间和计算资源需求过高的问题。这是一个重要的问题,因为尽管LLM具有强大的性能,但其庞大的参数量使得部署成本高昂,尤其是在资源受限的环境中。
- 关键思路论文提出了一种新的后训练压缩技术DeltaLLM,通过在Transformer块之间引入权重共享以及低秩差异矩阵来减少模型的内存占用。相比现有的压缩方法,这种方法不仅减少了参数量,还保持了模型的性能。此外,采用逐步模块替换的方法进行训练,使得仅需少量数据即可达到与从头训练的模型相当的性能。
- 其它亮点实验结果表明,DeltaLLM能够在减少12%参数的情况下保留90%以上的性能,并且在多个基准测试中优于其他压缩方法。特别是DeltaPhi 2.9B模型,在减少24%参数的情况下,零样本准确率与经过恢复微调的SlicedPhi 3.3B相当,而后者仅减少了12%的参数。该研究还开源了两个模型:DeltaLLAMA和DeltaPHI,为后续研究提供了宝贵的资源。
- 最近在这个领域中,相关的研究包括JointDrop、LaCo、ShortGPT和SliceGPT等。这些方法也旨在减少LLM的参数量并保持性能,但DeltaLLM通过引入权重共享和低秩矩阵的方式,在相同参数减少的情况下取得了更好的效果。相关研究还包括《Efficient Large-Scale Language Modeling》、《Compressing Transformers with Pruning and Quantization》等论文。
沙发等你来抢
去评论
评论
沙发等你来抢