Conceptual Codebook Learning for Vision-Language Models

向作者提问

NEW

简介

本文提出了一个名为概念码本学习（CoCoLe）的新颖fine-tuning方法，用于解决在few-shot设置下fine-tuning视觉语言模型（VLMs）时提高其泛化能力的挑战。我们认识到，视觉概念，如纹理、形状和颜色在跨域任务中具有自然的可转移性，并且在泛化任务中起着至关重要的作用。受到这一有趣发现的启发，我们学习了一个概念码本，其中包含视觉概念作为键和概念提示作为值，它作为图像编码器输出和文本编码器输入之间的链接。具体而言，对于给定的图像，我们利用码本来识别与类别嵌入相关的最相关的概念提示，以执行分类。此外，我们还将手工制作的概念缓存作为正则化项，以缓解低样本场景下的过拟合问题。我们观察到，这种概念码本学习方法能够实现视觉和语言模态之间的增强对齐。广泛的实验结果表明，我们的CoCoLe方法在各种评估设置中都明显优于现有的最先进方法，包括基于新的泛化、跨数据集评估和域泛化任务。详细的消融研究进一步证实了CoCoLe中每个组件的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高视觉语言模型在少样本学习情况下的泛化能力，通过提出概念码本学习（CoCoLe）的方法来解决这一问题。
关键思路

通过学习由视觉概念作为键和概念提示作为值组成的概念码本，将图像编码器的输出与文本编码器的输入联系起来，以提高视觉语言模型的对齐性和泛化能力。
其它亮点

本文提出的CoCoLe方法在各种评估设置中都优于现有的最先进方法，包括基于新数据集的泛化、跨数据集的评估和领域泛化任务。实验结果表明，该方法能够显著提高视觉和语言模态之间的对齐性。此外，本文还使用了手工制作的概念缓存作为正则化，以缓解低样本情况下的过拟合问题。
相关研究

与本文相关的研究包括视觉语言模型、元学习、少样本学习、概念学习等。其中一些论文包括《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》、《Meta-Learning for Few-Shot Natural Language Processing》、《A Simple Framework for Contrastive Learning of Visual Representations》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问