RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

简介

本文介绍了一种名为Low-Rank Adaptation (LoRA)的参数高效微调方法，它通过仅更新大型语言模型中的一小部分权重，显著提高了训练效率。最近，人们还将仅权重量化技术应用于LoRA方法，以减少微调的内存占用。然而，将权重-激活量化应用于LoRA管道尚未得到充分探索，我们观察到主要由于存在激活异常值而导致了实质性的性能下降。因此，本文提出了RoLoRA，这是一种基于LoRA的有效权重-激活量化方案。RoLoRA利用旋转方法消除异常值，并提出了旋转感知微调方法，以保留旋转后无异常值的特性。实验结果表明，RoLoRA在权重-激活设置下，始终提高了低位LoRA的收敛性和后训练量化的鲁棒性。我们在LLaMA2-7B / 13B，LLaMA3-8B模型上评估了RoLoRA，相对于LoRA基线，在常识推理任务上，4位权重-激活量化的LLaMA2-13B的绝对准确度提高了高达29.5％。我们进一步证明了RoLoRA在大型多模型模型（LLaVA-1.5-7B）上的有效性。代码可在https://github.com/HuangOwen/RoLoRA上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

RoLoRA论文旨在解决在LLM的权重-激活量化中存在的激活值异常值问题，从而提高PEFT方法的效率和稳健性。
关键思路

RoLoRA提出了一种基于旋转的方法来消除激活值异常值，并提出了旋转感知的微调方法来保留旋转后LLM中无异常值的特性。
其它亮点

RoLoRA通过实验表明，相比于LoRA基线，RoLoRA在低位权重-激活量化中能够显著提高收敛性和鲁棒性，特别是在常识推理任务中，4位权重-激活量化的LLaMA2-13B可以获得高达29.5％的绝对精度提升。RoLoRA还在Large Multimodal Models (LLaVA-1.5-7B)上进行了验证。RoLoRA的代码已经在GitHub上开源。
相关研究

在最近的研究中，一些学者也尝试将权重-激活量化技术应用于LLM中，但是RoLoRA是第一篇基于LoRA的方案，旨在解决激活值异常值问题。

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

提问交流

提问交流