- 简介本文研究了Hu等人(2021)最初提出的低秩自适应(LoRA)中初始化的作用。基本上,为了从预训练模型开始微调,可以将B初始化为零,将A初始化为随机数(PEFT软件包中的默认初始化),或者反之。在这两种情况下,初始时BA的乘积为零,这使得微调从预训练模型开始。这两种初始化方案看似相似。它们原则上应该产生相同的性能并共享相同的最优学习率。我们证明这是一个错误的直觉,第一种方案(将B初始化为零,将A初始化为随机数)平均而言比另一种方案表现更好。我们的理论分析表明,这背后的原因可能是第一种初始化允许使用更大的学习率(而不会导致输出不稳定)相比第二种初始化,从而更有效地学习第一种方案。我们通过对LLMs进行大量实验验证了我们的结果。
- 图表
- 解决问题研究Low Rank Adaptation (LoRA)中初始化的作用,探讨两种初始化方案对模型性能的影响。
- 关键思路论文比较了两种初始化方案,发现将B初始化为零且A随机初始化的方案平均性能更好,可能是因为这种初始化方案允许使用更大的学习率,从而更加高效地学习。
- 其它亮点论文通过理论分析和实验证明了两种初始化方案的差异,提出了更高效的初始化方案,实验设计严谨,使用了LLMs数据集。
- 在这个领域中,还有其他相关研究,如Hu等人的原始工作,以及与模型初始化相关的其他研究,如《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》。
沙发等你来抢
去评论
评论
沙发等你来抢