Conceptual Codebook Learning for Vision-Language Models

简介

本文提出了概念码本学习（CoCoLe），这是一种新颖的微调方法，用于解决视觉语言模型（VLM）在少样本情况下微调时提高其泛化能力的挑战。我们认识到，纹理、形状和颜色等视觉概念在不同领域之间具有自然的可转移性，在泛化任务中起着至关重要的作用。受到这个有趣的发现的启发，我们学习了一个概念码本，其中包含视觉概念作为键和概念提示作为值，它作为图像编码器输出和文本编码器输入之间的链接。具体而言，对于给定的图像，我们利用码本识别与类别嵌入相关联的最相关的概念提示来执行分类。此外，我们还将手工制作的概念缓存作为正则化项，以缓解低样本情况下的过拟合问题。我们观察到，这种概念码本学习方法能够实现视觉和语言模态之间的增强对齐。广泛的实验结果表明，我们的CoCoLe方法在各种评估设置下明显优于现有的最先进方法，包括基础到新的泛化、跨数据集评估和领域泛化任务。详细的消融研究进一步证实了CoCoLe中每个组件的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高视觉语言模型在少样本下游任务中的泛化能力，通过学习视觉概念码书，将视觉概念与语言模型联系起来。
关键思路

本文提出了概念码书学习（CoCoLe）方法，通过学习视觉概念码书，将视觉概念与语言模型联系起来，提高视觉语言模型的泛化能力。
其它亮点

本文的实验结果表明，CoCoLe方法在各种评估设置下均优于现有的最先进方法，包括基于新任务的泛化、跨数据集评估和领域泛化任务。此外，本文还加入了手工概念缓存作为正则化，以缓解低样本情况下的过拟合问题。
相关研究

最近在这个领域中，还有一些相关研究，如《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。

Conceptual Codebook Learning for Vision-Language Models

提问交流

提问交流