Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach

2024年03月28日
  • 简介
    Parameter-efficient fine-tuning for pre-trained Vision Transformers旨在通过学习最小集合的新适应参数,同时保留大部分预训练参数,使模型能够熟练地适应下游任务。在保留预训练模型的可推广表示能力和获取任务特定特征之间取得平衡是一个关键挑战。目前,缺乏关注如何指导这种微妙的权衡。在本研究中,我们从预训练参数矩阵的奇异值分解(SVD)的角度来解决这个问题,提供了对现有方法调整动态的深入理解。在此基础上,我们提出了一种基于残差的低秩重缩放(RLRR)微调策略。这种策略不仅增强了参数调整的灵活性,而且通过残差设计确保新参数不会过度偏离预训练模型。广泛的实验表明,我们的方法在各种下游图像分类任务中实现了竞争性能,同时保持了可比的新参数。我们认为,这项工作在提供解释现有方法的统一视角方面迈出了一步,并激励了开发更接近有效考虑上述关键权衡的新方法。我们的代码可在\href{https://github.com/zstarN70/RLRR.git}{https://github.com/zstarN70/RLRR.git}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过参数高效微调预训练视觉变换器,学习一组最小的新适应参数,同时保留预训练参数的大部分,以适应下游任务。如何在保留预训练模型的可泛化表示能力的同时获得任务特定特征是一个关键挑战。
  • 关键思路
    通过对预训练参数矩阵的奇异值分解(SVD)的理解,提出了一种基于残差的低秩重缩放(RLRR)微调策略。这种策略不仅增强了参数微调的灵活性,而且通过残差设计确保新参数不会过度偏离预训练模型。
  • 其它亮点
    论文的实验结果表明,该方法在各种下游图像分类任务中实现了竞争性能,并同时保持了可比较的新参数。此外,作者还公开了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Training data-efficient image transformers & distillation through attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问