LoRA-Pro: Are Low-Rank Adapters Properly Optimized?

简介

LoRA（Low-Rank Adaptation）是一种重要的方法，可以通过重新参数化原始矩阵为两个低秩矩阵的乘积，实现参数高效的基础模型微调。尽管效率高，但与完全微调相比，LoRA往往表现较差。本文提出了LoRA-Pro来弥合这种性能差距。首先，我们深入探讨了LoRA和完全微调的优化过程。我们发现，尽管LoRA使用了低秩逼近，但它忽略了完全微调的优化过程。为了解决这个问题，我们引入了一个新概念——“等效梯度”。这个虚拟梯度使得在重新参数化的矩阵上的优化过程等效于LoRA，可以用来量化LoRA和完全微调之间的差异。等效梯度是由矩阵A和B的梯度推导而来的。为了缩小性能差距，我们的方法在优化过程中最小化等效梯度和从完全微调获得的梯度之间的差异。通过解决这个目标，我们得出了更新矩阵A和B的最优闭式解。我们的方法约束了优化过程，缩小了LoRA和完全微调之间的性能差距。在自然语言处理任务上进行的大量实验验证了我们的方法的有效性。
图表
解决问题

LoRA-Pro试图解决的问题是如何缩小低秩适应（LoRA）和完全微调之间性能差距的问题。
关键思路

论文提出了一种新概念——等效梯度，并通过最小化等效梯度与完全微调梯度之间的差异来优化更新矩阵A和B的过程，从而缩小性能差距。
其它亮点

论文通过实验验证了LoRA-Pro方法的有效性，并证明了其在自然语言处理任务中的性能优于LoRA和其他方法。论文还开源了代码。
相关研究

最近的相关研究包括：《Low-Rank Matrix Factorization for Deep Neural Networks Training: A Review》和《Low-rank matrix factorization for deep neural networks: A double-edged sword》。

LoRA-Pro: Are Low-Rank Adapters Properly Optimized?

评论