Low-Rank Interconnected Adaptation Across Layers

2024年07月13日
  • 简介
    Low-rank adaptation(LoRA)是参数高效微调方法中最著名的代表之一,它冻结了主干模型,并向模型的每个层引入并行适配器模块。这些模块由两个低秩可训练矩阵组成:一个低维投影器(LP)和一个高维投影器(HP),它们的乘积近似于更新模型权重的变化。然而,LoRA每层配对的LP和HP限制了学习到的权重特定于特定的特征,忽略了像Transformer这样的模型中堆叠层所提取的各种信息。通过考虑层之间的差异并在学习权重时建立跨层连接,我们通过这种互联适应在微调时增强了对下游任务相关信息的捕获。同时,保留每个层的独特特征并根据特定比例选择性地混合各层的学习特征,在某些任务中也可能非常重要。在本文中,我们提出了跨层低秩互联适应(Lily)。具体而言,我们保留了层特定的LP(本地LP)用于低维特征投影,并将所有HP统一到一个模型范围内的全局HP中,从而克服了LoRA中的层特定约束。全局HP是与层无关的,支持多个HP子模块,或者受到专家混合(MoE)启发的HP专家捕获所有层深度的学习特征。对于混合所有专家的比率,我们使用受MoE启发的路由器有选择地适应不同层的特征,从而得到独特的专家分布。我们在广泛的下游任务上评估了Lily,并取得了最先进的结果,优于LoRA和一系列竞争方法。代码将在https://github.com/blameitonme1/lily上公开。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有参数有效微调方法中存在的问题,即忽略了层与层之间的连接和各层之间的差异,从而限制了权重的学习特征。同时,针对某些任务,保留每层的独特特征并有选择地混合不同层的学习特征也非常重要。
  • 关键思路
    论文提出了一种名为Lily的新方法,即低秩互联适应(Low-rank Interconnected adaptation across layers),通过保留每层特定的低维度投影器(本地LPs)和将所有高维度投影器(全局HP)统一起来,克服了LoRA中的层特定约束。同时,全局HP支持多个HP子模块,或者受Mixture of Experts(MoE)启发的HP专家,跨越所有层深度捕获学习特征。
  • 其它亮点
    论文在多个下游任务上进行了评估,并取得了最先进的结果,优于LoRA和其他竞争方法。论文提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Low-rank Matrix Factorization for Deep Neural Network Compression》、《Structured Pruning for Efficient ConvNets via Incremental Regularization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问