LoRA+: Efficient Low Rank Adaptation of Large Models

Soufiane Hayou ,
Nikhil Ghosh ,
Bin Yu
2024年02月19日
  • 简介
    本文展示了Low Rank Adaptation (LoRA)在Hu等人(2021)最初提出的情况下,会导致具有大宽度(嵌入维度)的模型微调的次优结果。这是因为LoRA中的适配器矩阵A和B使用相同的学习率进行更新。通过对大宽度网络的缩放论证,我们证明使用相同的学习率来更新A和B不允许有效的特征学习。我们随后展示了LoRA的这种次优性可以通过为LoRA适配器矩阵A和B设置不同的学习率,并选择一个良好的比率来进行修正。我们将这个提出的算法称为LoRA$+$。在我们广泛的实验中,LoRA$+$提高了性能(1-2 $\%$ 的改进)和微调速度(最高可达 $\sim$ 2倍加速),在与LoRA相同的计算成本下。
  • 图表
  • 解决问题
    本文旨在解决Low Rank Adaptation (LoRA)在大宽度(嵌入维度)模型微调中导致次优结果的问题,提出了新算法LoRA$+$。
  • 关键思路
    本文通过比例调整LoRA适配器矩阵A和B的学习率,提出了LoRA$+$算法,可以有效地进行特征学习。
  • 其它亮点
    本文实验证明LoRA$+$算法可以提高模型性能(1-2%改进)和微调速度(高达2倍速度提升),而不增加计算成本。实验使用的数据集和开源代码也值得关注。
  • 相关研究
    在这个领域中,最近的相关研究包括Hu等人(2021)的原始LoRA算法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论