The Impact of Initialization on LoRA Finetuning Dynamics

简介

本文研究了Hu等人（2021）最初提出的低秩自适应（LoRA）中初始化的作用。基本上，为了从预训练模型开始微调，可以将B初始化为零，将A初始化为随机数（PEFT软件包中的默认初始化），或者反之。在这两种情况下，初始时BA的乘积为零，这使得微调从预训练模型开始。这两种初始化方案看似相似。它们原则上应该产生相同的性能并共享相同的最优学习率。我们证明这是一个错误的直觉，第一种方案（将B初始化为零，将A初始化为随机数）平均而言比另一种方案表现更好。我们的理论分析表明，这背后的原因可能是第一种初始化允许使用更大的学习率（而不会导致输出不稳定）相比第二种初始化，从而更有效地学习第一种方案。我们通过对LLMs进行大量实验验证了我们的结果。
图表
解决问题

研究Low Rank Adaptation (LoRA)中初始化的作用，探讨两种初始化方案对模型性能的影响。
关键思路

论文比较了两种初始化方案，发现将B初始化为零且A随机初始化的方案平均性能更好，可能是因为这种初始化方案允许使用更大的学习率，从而更加高效地学习。
其它亮点

论文通过理论分析和实验证明了两种初始化方案的差异，提出了更高效的初始化方案，实验设计严谨，使用了LLMs数据集。
相关研究

在这个领域中，还有其他相关研究，如Hu等人的原始工作，以及与模型初始化相关的其他研究，如《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》。

The Impact of Initialization on LoRA Finetuning Dynamics

评论