BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models

2024年03月19日
  • 简介
    Low-rank adaptation (LoRA)是一种流行的方法,通过学习低秩增量矩阵,对大规模预训练模型进行微调,以在下游任务中使用。虽然与完全微调方法相比,LoRA及其变体有效地减少了可训练参数的数量,但它们经常在训练数据上过拟合,导致在测试数据上的次优泛化。为了解决这个问题,我们引入了BiLoRA,一种基于双层优化(BLO)的减轻过拟合微调方法。BiLoRA使用伪奇异值分解来参数化低秩增量矩阵,并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种分割嵌入在BLO框架的不同层中,可以缓解对单个数据集的过拟合风险。在涵盖自然语言理解和生成任务的十个数据集上进行测试,并应用于各种知名的大规模预训练模型,BiLoRA显着优于LoRA方法和其他微调方法,其可训练参数的数量相似。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决使用低秩适应(LoRA)方法在下游任务中微调大规模预训练模型时过拟合的问题,提出了一种基于双层优化(BLO)的过拟合缓解微调方法BiLoRA。
  • 关键思路
    BiLoRA采用伪奇异值分解来参数化低秩递增矩阵,并将伪奇异向量和值的训练分别分配到两个不同的训练数据子集中。这种内嵌在不同层次的BLO框架中的分割,减轻了对单个数据集的过拟合风险。
  • 其它亮点
    BiLoRA在十个自然语言理解和生成任务的测试中,应用于各种知名的大规模预训练模型,显著优于LoRA方法和其他微调方法,可训练参数数量相似。
  • 相关研究
    最近的相关研究包括《Efficient Low-rank Multimodal Fusion with Modality-Specific Factors》和《Low-rank Bilinear Pooling for Fine-grained Classification》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问