Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

简介

Fine-tuning是适应大型语言模型（LLMs）到不同应用的关键过程。在某些情况下，例如多租户服务，部署多个LLMs成为满足复杂需求的必要条件。最近的研究表明，将经过微调的LLM分解成基础模型和相应的delta权重，然后使用低秩或低位方法压缩以降低成本。在本研究中，我们观察到现有的低秩和低位压缩方法会严重损害针对任务的微调LLMs（例如用于数学问题的WizardMath）的模型性能。受delta权重中奇异值的长尾分布的启发，我们提出了一种使用混合精度的delta量化方法。该方法为奇异值较大的奇异向量使用更高位的表示。我们在各种微调LLMs上评估了我们的方法，包括数学LLMs、代码LLMs、聊天LLMs甚至是VLMs。实验结果表明，我们的方法表现与完整的微调LLMs相当，超过了低秩和低位基线。此外，我们还展示了我们的方法与各种骨干LLMs兼容，例如Llama-2、Llama-3和Mistral，突显了其通用性。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本篇论文旨在解决在多租户服务等场景下，将大型语言模型Fine-tune后进行低秩或低比特压缩会显著降低模型性能的问题。
关键思路

通过观察delta权重奇异值的长尾分布，提出使用混合精度的delta量化方法。该方法针对大奇异值的奇异向量采用更高比特的表示，以提高压缩效率和模型性能。
其它亮点

实验结果表明，该方法在各种Fine-tune LLMs上表现出色，甚至超过了低秩和低比特基线。此外，该方法还能与各种骨干LLMs兼容，具有很强的通用性。
相关研究

在相关研究中，最近有一些关于低秩和低比特压缩的工作，例如《Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning》和《Structured Pruning of Large Language Models》。

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

提问交流

提问交流