DoRA: Weight-Decomposed Low-Rank Adaptation

Shih-Yang Liu ,
Chien-Yi Wang ,
Hongxu Yin ,
Pavlo Molchanov ,
Yu-Chiang Frank Wang ,
Kwang-Ting Cheng ,
Min-Hung Chen
1124
热度
2024年02月14日
  • 简介
    在广泛使用的参数高效微调(PEFT)方法中,由于避免了额外的推断成本,LoRA及其变体已经获得了相当大的流行度。然而,这些方法与完全微调(FT)之间仍然存在精度差距。在本研究中,我们首先引入了一种新颖的权重分解分析来研究FT和LoRA之间的内在差异。为了模拟FT的学习能力,我们提出了一种称为Weight-Decomposed LowRank Adaptation(DoRA)的方法。DoRA将预训练权重分解为两个组成部分:大小和方向,用于微调,具体使用LoRA进行方向更新,以有效地最小化可训练参数的数量。通过采用DoRA,我们增强了LoRA的学习能力和训练稳定性,同时避免了任何额外的推断开销。DoRA在各种下游任务上(如常识推理、视觉指令调整和图像/视频文本理解)上对LLaMA、LLaVA和VL-BART进行微调,始终优于LoRA。
  • 图表
  • 解决问题
    论文旨在解决parameter-efficient finetuning (PEFT)方法在减少推理成本的同时,与全fine-tuning (FT)方法之间存在的精度差距问题。
  • 关键思路
    通过权重分解分析,提出了Weight-Decomposed LowRank Adaptation (DoRA)方法,将预训练权重分解为大小和方向两个部分进行fine-tuning,利用LoRA进行方向更新,以有效地减少可训练参数的数量。这样可以增强LoRA的学习能力和训练稳定性,同时避免任何额外的推理开销。
  • 其它亮点
    论文使用了LLaMA、LLaVA和VL-BART等多个数据集进行实验,证明了DoRA方法相比于LoRA方法在多个下游任务中都有更好的性能表现。此外,论文提出的权重分解分析方法也为后续研究提供了新的思路。
  • 相关研究
    在PEFT方法方面,LoRA和其变种已经得到广泛应用。在权重分解方面,也有相关研究,例如《Exploiting Weight Decomposition and Low-Rank Approximation for Efficient Fine-tuning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论