Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

2024年06月13日
  • 简介
    Fine-tuning是适应大型语言模型(LLMs)到不同应用的关键过程。在某些情况下,例如多租户服务,部署多个LLMs成为满足复杂需求的必要条件。最近的研究表明,将经过微调的LLM分解成基础模型和相应的delta权重,然后使用低秩或低位方法压缩以降低成本。在本研究中,我们观察到现有的低秩和低位压缩方法会严重损害针对任务的微调LLMs(例如用于数学问题的WizardMath)的模型性能。受delta权重中奇异值的长尾分布的启发,我们提出了一种使用混合精度的delta量化方法。该方法为奇异值较大的奇异向量使用更高位的表示。我们在各种微调LLMs上评估了我们的方法,包括数学LLMs、代码LLMs、聊天LLMs甚至是VLMs。实验结果表明,我们的方法表现与完整的微调LLMs相当,超过了低秩和低位基线。此外,我们还展示了我们的方法与各种骨干LLMs兼容,例如Llama-2、Llama-3和Mistral,突显了其通用性。
  • 作者讲解·1
  • 图表
  • 解决问题
    本篇论文旨在解决在多租户服务等场景下,将大型语言模型Fine-tune后进行低秩或低比特压缩会显著降低模型性能的问题。
  • 关键思路
    通过观察delta权重奇异值的长尾分布,提出使用混合精度的delta量化方法。该方法针对大奇异值的奇异向量采用更高比特的表示,以提高压缩效率和模型性能。
  • 其它亮点
    实验结果表明,该方法在各种Fine-tune LLMs上表现出色,甚至超过了低秩和低比特基线。此外,该方法还能与各种骨干LLMs兼容,具有很强的通用性。
  • 相关研究
    在相关研究中,最近有一些关于低秩和低比特压缩的工作,例如《Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning》和《Structured Pruning of Large Language Models》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问