MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

2024年05月20日
  • 简介
    本文分析了LoRA实现的低秩更新机制对大型语言模型fine-tuning的影响。研究发现,低秩更新机制可能限制了LLM有效学习和记忆新知识的能力。基于这一观察,我们提出了一种新的方法MoRA,采用方阵来实现高秩更新,同时保持相同数量的可训练参数。为了实现这一点,我们引入了相应的非参数算子,以减少方阵的输入维度并增加输出维度。此外,这些算子确保权重可以合并回LLM,使得我们的方法可以像LoRA一样部署。我们在五个任务上对我们的方法进行了全面评估:指令调整、数学推理、持续预训练、记忆和预训练。我们的方法在记忆密集型任务上优于LoRA,并在其他任务上实现了可比较的性能。
  • 图表
  • 解决问题
    分析LoRA的低秩更新机制对LLMs有效学习和记忆新知识的影响,提出一种新的高秩更新方法MoRA
  • 关键思路
    MoRA使用方形矩阵实现高秩更新,同时保持可训练参数数量不变,通过引入相应的非参数算子来降低输入维度和增加输出维度,确保权重可以合并回LLMs中
  • 其它亮点
    在五项任务中进行了全面评估,MoRA在记忆密集型任务上优于LoRA,在其他任务上实现了可比较的性能。
  • 相关研究
    近期的相关研究包括:《Efficient Low-Rank Transformer》、《Adaptive Input Representations for Neural Language Modeling》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论