The Impact of Initialization on LoRA Finetuning Dynamics

2024年06月12日
  • 简介
    本文研究了Hu等人(2021)最初提出的低秩自适应(LoRA)中初始化的作用。基本上,为了从预训练模型开始微调,可以将B初始化为零,将A初始化为随机数(PEFT软件包中的默认初始化),或者反之。在这两种情况下,初始时BA的乘积为零,这使得微调从预训练模型开始。这两种初始化方案看似相似。它们原则上应该产生相同的性能并共享相同的最优学习率。我们证明这是一个错误的直觉,第一种方案(将B初始化为零,将A初始化为随机数)平均而言比另一种方案表现更好。我们的理论分析表明,这背后的原因可能是第一种初始化允许使用更大的学习率(而不会导致输出不稳定)相比第二种初始化,从而更有效地学习第一种方案。我们通过对LLMs进行大量实验验证了我们的结果。
  • 图表
  • 解决问题
    研究Low Rank Adaptation (LoRA)中初始化的作用,探讨两种初始化方案对模型性能的影响。
  • 关键思路
    论文比较了两种初始化方案,发现将B初始化为零且A随机初始化的方案平均性能更好,可能是因为这种初始化方案允许使用更大的学习率,从而更加高效地学习。
  • 其它亮点
    论文通过理论分析和实验证明了两种初始化方案的差异,提出了更高效的初始化方案,实验设计严谨,使用了LLMs数据集。
  • 相关研究
    在这个领域中,还有其他相关研究,如Hu等人的原始工作,以及与模型初始化相关的其他研究,如《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论