LoRA-GA: Low-Rank Adaptation with Gradient Approximation

2024年07月06日
  • 简介
    Fine-tuning(微调)大规模预训练模型在计算和内存成本方面代价高昂。作为最流行的参数高效微调方法之一,LoRA通过微调具有显著较少参数的辅助低秩模型,提供了一种经济实惠的替代方案。尽管LoRA在每次迭代中显著降低了计算和内存需求,但广泛的经验证据表明,它的收敛速度比完全微调要慢得多,最终导致总体计算成本的增加,并且往往表现更差。在我们的论文中,我们对LoRA的初始化方法进行了深入研究,并表明,仔细的初始化(不改变架构和训练算法)可以显著提高效率和性能。特别是,我们引入了一种新的初始化方法LoRA-GA(梯度近似的低秩适应性),它在第一步将低秩矩阵乘积的梯度与完全微调的梯度对齐。我们广泛的实验证明,LoRA-GA实现了与完全微调相当的收敛速度(因此比纯LoRA和各种最近的改进方法更快),同时实现了相当甚至更好的性能。例如,在使用T5-Base的GLUE数据集子集上,LoRA-GA的平均表现优于LoRA 5.69%。在更大的模型(如Llama 2-7B)上,LoRA-GA在MT-bench,GSM8K和Human-eval上显示出0.34,11.52%和5.05%的性能改进。此外,我们观察到与纯LoRA相比,收敛速度提高了2-4倍,验证了它在加速收敛和提高模型性能方面的有效性。代码可在https://github.com/Outsider565/LoRA-GA上获得。
  • 图表
  • 解决问题
    本论文旨在解决fine-tuning大型预训练模型时计算和内存成本昂贵的问题,提出了一种代价更低的fine-tuning方法LoRA,但是发现其收敛速度较慢,导致总体计算成本增加和测试性能下降。论文试图通过改进LoRA的初始化方法来提高效率和性能。
  • 关键思路
    论文提出了一种新的初始化方法LoRA-GA,通过在第一步将低秩矩阵乘积的梯度与完整fine-tuning的梯度对齐,实现与完整fine-tuning相当的收敛速度和性能,同时提高了LoRA的效率。
  • 其它亮点
    论文的实验表明,LoRA-GA相比于LoRA和其他改进方法,具有更快的收敛速度和更好的性能。例如,在使用T5-Base的GLUE数据集的子集上,LoRA-GA平均比LoRA表现更好5.69%。在更大的模型上,如Llama 2-7B,LoRA-GA在MT-bench,GSM8K和Human-eval上分别表现出0.34,11.52%和5.05%的性能提升。此外,论文还开源了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《On the Variance of the Adaptive Learning Rate and Beyond》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Adapting Auxiliary Losses Using Gradient Similarity》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论