- 简介基于大型预训练语言模型(LPLMs)的微调技术已被证明可以显著提高模型在各种下游任务中的性能,并有效地控制LPLMs的输出行为。最近的研究提出了许多基于开源LPLMs微调少量参数的方法,减少了对计算和存储资源的需求。其中,以LoRA(低秩自适应)为代表的重参数化微调方法已经变得越来越流行。我们发现,尽管这些方法在许多方面表现良好,但在复杂任务适应性、性能、稳定性和算法复杂性方面仍有相当大的提升空间。为了解决这个问题,本文受到大脑的功能是由其几何结构塑造的思想启发,将这个思想融入到LoRA技术中,并提出了一种基于矩阵变换的重参数化方法,名为矩阵变换低秩自适应(MTLoRA),以实现有效的微调。MTLoRA旨在通过应用变换矩阵T对任务特定参数矩阵进行线性变换(如旋转、缩放和平移),从而动态改变其空间几何结构,生成新的矩阵特征模式(特征向量),以模仿大脑中复杂几何结构特征模式对功能的基本影响,从而提高模型在下游任务中的性能。在自然语言理解(NLU)任务中,使用GLUE基准测试进行评估,结果显示MTLoRA在八个任务中的整体性能提高约1.0%;在自然语言生成(NLG)任务中,MTLoRA在DART和WebNLG任务中的平均性能分别提高了0.95%和0.56%。
- 图表
- 解决问题本论文旨在提出一种新的矩阵变换的再参数化方法,名为MTLoRA,以提高大型预训练语言模型在下游任务中的性能和稳定性。
- 关键思路MTLoRA采用矩阵变换来动态改变其空间几何结构,生成新的矩阵特征模式,以模拟大脑中复杂几何结构特征模式对功能的基本影响,从而增强模型在下游任务中的性能。
- 其它亮点MTLoRA在自然语言理解和生成任务中进行了评估,使用了GLUE基准测试和DART、WebNLG数据集。结果表明,MTLoRA在8项任务中整体性能提高了约1.0%,在DART和WebNLG任务中分别提高了平均0.95%和0.56%。
- 最近的相关研究包括基于开源LPLMs的微调技术,如LoRA,以及其他矩阵变换方法。
沙发等你来抢
去评论
评论
沙发等你来抢