- 简介Low-rank adaptation (LoRA)是一种流行的方法,通过学习低秩增量矩阵,对大规模预训练模型进行微调,以在下游任务中使用。虽然与完全微调方法相比,LoRA及其变体有效地减少了可训练参数的数量,但它们经常在训练数据上过拟合,导致在测试数据上的次优泛化。为了解决这个问题,我们引入了BiLoRA,一种基于双层优化(BLO)的减轻过拟合微调方法。BiLoRA使用伪奇异值分解来参数化低秩增量矩阵,并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种分割嵌入在BLO框架的不同层中,可以缓解对单个数据集的过拟合风险。在涵盖自然语言理解和生成任务的十个数据集上进行测试,并应用于各种知名的大规模预训练模型,BiLoRA显着优于LoRA方法和其他微调方法,其可训练参数的数量相似。
-
- 图表
- 解决问题论文旨在解决使用低秩适应(LoRA)方法在下游任务中微调大规模预训练模型时过拟合的问题,提出了一种基于双层优化(BLO)的过拟合缓解微调方法BiLoRA。
- 关键思路BiLoRA采用伪奇异值分解来参数化低秩递增矩阵,并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种内嵌在不同层次的BLO框架中的分割,减轻了对单个数据集的过拟合风险。
- 其它亮点BiLoRA在十个自然语言理解和生成任务的测试中,应用于各种知名的大规模预训练模型,显著优于LoRA方法和其他微调方法,可训练参数数量相似。
- 最近的相关研究包括《Efficient Low-rank Multimodal Fusion with Modality-Specific Factors》和《Low-rank Bilinear Pooling for Fine-grained Classification》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流