Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning

2024年03月12日
  • 简介
    基于大型预训练语言模型(LPLMs)的微调技术已被证明可以显著提高模型在各种下游任务上的性能,并有效地控制LPLMs的输出行为。最近的研究提出了许多基于开源LPLMs微调少量参数的方法,降低了计算和存储资源的需求。其中,以LoRA(低秩自适应)为代表的重新参数化微调方法已经变得越来越流行。我们发现,尽管这些方法在许多方面表现良好,但在复杂任务适应性、性能、稳定性和算法复杂性方面仍有相当大的提升空间。针对这一问题,本文受到大脑功能受其几何结构影响的思想启发,将这一思想融入到LoRA技术中,提出了一种新的基于矩阵变换的重新参数化微调方法,名为基于矩阵变换的低秩自适应(MTLoRA)。MTLoRA旨在通过应用变换矩阵T对任务特定参数矩阵进行线性变换(如旋转、缩放和平移),动态改变其空间几何结构,生成新的矩阵特征模式(特征向量),模拟大脑中复杂几何结构特征模式对功能的基本影响,从而提高模型在下游任务中的性能。在自然语言理解(NLU)任务中,使用GLUE基准测试进行评估,结果表明MTLoRA在八项任务中的整体性能提高了约1.0%;在自然语言生成(NLG)任务中,MTLoRA平均提高了DART和WebNLG任务的性能分别为0.95%和0.31%。
  • 图表
  • 解决问题
    论文旨在提高LPLMs的fine-tuning性能,增强模型在下游任务中的表现,并控制LPLMs的输出行为。
  • 关键思路
    论文提出了一种基于矩阵变换的重新参数化方法,名为MTLoRA,旨在通过应用变换矩阵T来动态改变空间几何结构,生成新的矩阵特征模式,从而提高模型在下游任务中的性能。
  • 其它亮点
    论文使用GLUE基准测试和DART、WebNLG任务对MTLoRA进行评估,结果表明MTLoRA在NLU任务中的总体性能提高了约1.0%,在NLG任务中平均提高了0.95%和0.31%。
  • 相关研究
    近期的相关研究包括基于LPLMs的fine-tuning技术和重新参数化方法,如LoRA。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论