BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models

简介

Low-rank adaptation (LoRA)是一种流行的方法，通过学习低秩增量矩阵，对大规模预训练模型进行微调，以在下游任务中使用。虽然与完全微调方法相比，LoRA及其变体有效地减少了可训练参数的数量，但它们经常在训练数据上过拟合，导致在测试数据上的次优泛化。为了解决这个问题，我们引入了BiLoRA，一种基于双层优化（BLO）的减轻过拟合微调方法。BiLoRA使用伪奇异值分解来参数化低秩增量矩阵，并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种分割嵌入在BLO框架的不同层中，可以缓解对单个数据集的过拟合风险。在涵盖自然语言理解和生成任务的十个数据集上进行测试，并应用于各种知名的大规模预训练模型，BiLoRA显着优于LoRA方法和其他微调方法，其可训练参数的数量相似。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决使用低秩适应（LoRA）方法在下游任务中微调大规模预训练模型时过拟合的问题，提出了一种基于双层优化（BLO）的过拟合缓解微调方法BiLoRA。
关键思路

BiLoRA采用伪奇异值分解来参数化低秩递增矩阵，并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种内嵌在不同层次的BLO框架中的分割，减轻了对单个数据集的过拟合风险。
其它亮点

BiLoRA在十个自然语言理解和生成任务的测试中，应用于各种知名的大规模预训练模型，显著优于LoRA方法和其他微调方法，可训练参数数量相似。
相关研究

最近的相关研究包括《Efficient Low-rank Multimodal Fusion with Modality-Specific Factors》和《Low-rank Bilinear Pooling for Fine-grained Classification》。

BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models

提问交流

提问交流