- 简介本文提出了概念码本学习(CoCoLe),这是一种新颖的微调方法,用于解决视觉语言模型(VLMs)在少样本情况下微调时提高其泛化能力的挑战。我们认识到,视觉概念,如纹理、形状和颜色在不同领域之间自然地可转移,并在泛化任务中起着关键作用。受到这一有趣发现的启发,我们学习了一个概念码本,其中包含视觉概念作为键和概念提示作为值,它作为图像编码器输出和文本编码器输入之间的链接。具体而言,对于给定的图像,我们利用码本来识别与类别嵌入相关的最相关的概念提示,以执行分类。此外,我们还将手工制作的概念缓存作为正则化项,以缓解低样本情况下的过拟合问题。我们观察到,这种概念码本学习方法能够实现视觉和语言模态之间的增强对齐。广泛的实验结果表明,我们的CoCoLe方法在各种评估设置下明显优于现有的最先进方法,包括基于新领域的泛化、跨数据集评估和领域泛化任务。详细的消融研究进一步证实了CoCoLe中每个组件的有效性。
- 解决问题本论文旨在提出一种新的fine-tuning方法来增强视觉语言模型的泛化能力,同时在少样本情况下fine-tuning。
- 关键思路本文提出了概念码本学习(CoCoLe)的方法,通过学习一个包含视觉概念作为键和概念提示作为值的概念码本,将图像编码器的输出与文本编码器的输入联系起来,从而提高视觉和语言模态之间的对齐性。
- 其它亮点本文通过实验验证了CoCoLe方法在各种评估设置下的显著优于现有的最先进方法,包括基于新的泛化、跨数据集评估和领域泛化任务。此外,本文还设计了详细的消融实验来证明CoCoLe方法中每个组件的有效性。
- 最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢