Low-Rank Few-Shot Adaptation of Vision-Language Models

2024年05月28日
  • 简介
    最近,在视觉语言模型(VLMs)的少样本适应方面取得了进展,进一步推动了它们的泛化能力,只需要在目标下游任务中标记少量样本。然而,这个已经相当丰富的少样本文献主要集中在提示学习上,较少关注适配器,并忽略了参数高效微调(PEFT)的最新进展。此外,现有的VLMs少样本学习方法通常依赖于繁重的训练过程和/或精心选择的任务特定超参数,这可能会妨碍它们的适用性。为此,我们引入了LoRA(Low-Rank Adaptation)在VLMs的少样本学习中,并展示了其在11个数据集上的潜力,与当前最先进的基于提示和适配器的方法进行比较。令人惊讶的是,我们的简单CLIP-LoRA方法展现出了显著的改进,同时减少了训练时间,并在所有目标任务中保持相同的超参数,即跨所有数据集和样本数。当然,我们的惊人结果并不排除提示学习和适配器研究的潜力。然而,我们相信我们的强大基线可以用于评估这些新兴学科在少样本VLMs中的进展。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决Vision-Language Models (VLMs)在few-shot学习中的泛化能力问题,提出了Low-Rank Adaptation (LoRA)的方法,并与当前最先进的prompt-和adapter-based方法进行比较。
  • 关键思路
    本文提出的LoRA方法通过低秩矩阵适应,可以在少量标记样本的情况下提高模型的泛化能力,同时减少训练时间和超参数调整的需求。
  • 其它亮点
    本文的实验结果表明,CLIP-LoRA方法在11个数据集上均有显著提高,同时在所有目标任务中保持相同的超参数和训练时间。本文的方法为VLMs的few-shot学习提供了一个强大的基准。此外,本文还提到了当前在prompt-learning和adapter-based方面的研究进展。
  • 相关研究
    在相关研究方面,最近的一些研究包括:《Few-Shot Learning with Localization in Realistic Settings》、《Few-Shot Learning with Graph Neural Networks》、《Few-Shot Learning via Embedding Adaptation with Set-to-Set Functions》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问