- 简介本文提出了一个名为概念码本学习(CoCoLe)的新颖fine-tuning方法,用于解决在few-shot设置下fine-tuning视觉语言模型(VLMs)时提高其泛化能力的挑战。我们认识到,视觉概念,如纹理、形状和颜色在跨域任务中具有自然的可转移性,并且在泛化任务中起着至关重要的作用。受到这一有趣发现的启发,我们学习了一个概念码本,其中包含视觉概念作为键和概念提示作为值,它作为图像编码器输出和文本编码器输入之间的链接。具体而言,对于给定的图像,我们利用码本来识别与类别嵌入相关的最相关的概念提示,以执行分类。此外,我们还将手工制作的概念缓存作为正则化项,以缓解低样本场景下的过拟合问题。我们观察到,这种概念码本学习方法能够实现视觉和语言模态之间的增强对齐。广泛的实验结果表明,我们的CoCoLe方法在各种评估设置中都明显优于现有的最先进方法,包括基于新的泛化、跨数据集评估和域泛化任务。详细的消融研究进一步证实了CoCoLe中每个组件的有效性。
-
- 图表
- 解决问题本文旨在提高视觉语言模型在少样本学习情况下的泛化能力,通过提出概念码本学习(CoCoLe)的方法来解决这一问题。
- 关键思路通过学习由视觉概念作为键和概念提示作为值组成的概念码本,将图像编码器的输出与文本编码器的输入联系起来,以提高视觉语言模型的对齐性和泛化能力。
- 其它亮点本文提出的CoCoLe方法在各种评估设置中都优于现有的最先进方法,包括基于新数据集的泛化、跨数据集的评估和领域泛化任务。实验结果表明,该方法能够显著提高视觉和语言模态之间的对齐性。此外,本文还使用了手工制作的概念缓存作为正则化,以缓解低样本情况下的过拟合问题。
- 与本文相关的研究包括视觉语言模型、元学习、少样本学习、概念学习等。其中一些论文包括《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》、《Meta-Learning for Few-Shot Natural Language Processing》、《A Simple Framework for Contrastive Learning of Visual Representations》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流