Low-Rank Few-Shot Adaptation of Vision-Language Models

简介

最近，在视觉语言模型（VLMs）的少样本适应方面取得了进展，进一步推动了它们的泛化能力，只需要在目标下游任务中标记少量样本。然而，这个已经相当丰富的少样本文献主要集中在提示学习上，较少关注适配器，并忽略了参数高效微调（PEFT）的最新进展。此外，现有的VLMs少样本学习方法通常依赖于繁重的训练过程和/或精心选择的任务特定超参数，这可能会妨碍它们的适用性。为此，我们引入了LoRA（Low-Rank Adaptation）在VLMs的少样本学习中，并展示了其在11个数据集上的潜力，与当前最先进的基于提示和适配器的方法进行比较。令人惊讶的是，我们的简单CLIP-LoRA方法展现出了显著的改进，同时减少了训练时间，并在所有目标任务中保持相同的超参数，即跨所有数据集和样本数。当然，我们的惊人结果并不排除提示学习和适配器研究的潜力。然而，我们相信我们的强大基线可以用于评估这些新兴学科在少样本VLMs中的进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决Vision-Language Models (VLMs)在few-shot学习中的泛化能力问题，提出了Low-Rank Adaptation (LoRA)的方法，并与当前最先进的prompt-和adapter-based方法进行比较。
关键思路

本文提出的LoRA方法通过低秩矩阵适应，可以在少量标记样本的情况下提高模型的泛化能力，同时减少训练时间和超参数调整的需求。
其它亮点

本文的实验结果表明，CLIP-LoRA方法在11个数据集上均有显著提高，同时在所有目标任务中保持相同的超参数和训练时间。本文的方法为VLMs的few-shot学习提供了一个强大的基准。此外，本文还提到了当前在prompt-learning和adapter-based方面的研究进展。
相关研究

在相关研究方面，最近的一些研究包括：《Few-Shot Learning with Localization in Realistic Settings》、《Few-Shot Learning with Graph Neural Networks》、《Few-Shot Learning via Embedding Adaptation with Set-to-Set Functions》等。

Low-Rank Few-Shot Adaptation of Vision-Language Models

提问交流

提问交流