- 简介最近发现,使用预训练的视觉语言模型(VLM),例如 CLIP,将整个查询图像与由大型语言模型生成的多个更精细的文本描述对齐,可以显著提高零样本性能。然而,在本文中,我们实证发现,更精细的描述往往更有效地与查询图像的局部区域对齐,而不是整个图像,然后我们从理论上验证了这一发现。因此,我们提出了一种称为加权视觉-文本交叉对齐(WCA)的方法。该方法始于一种局部视觉提示技术,旨在识别查询图像中的局部视觉区域。然后,通过使用预训练的 VLM 创建相似度矩阵,将局部视觉区域与更精细的描述进行交叉对齐。为了确定查询图像与每个类别的对齐程度,我们开发了一个基于该矩阵中加权相似度的得分函数。广泛的实验表明,我们的方法显著提高了各种数据集的零样本性能,甚至达到了少样本学习方法的可比较结果。
- 图表
- 解决问题本文旨在提高零样本学习的性能,通过使用预训练的视觉-语言模型(VLM)来对齐整个查询图像和由大型语言模型生成的多个更精细的文本描述。但是,本文在实验证明,更精细的描述更容易与查询图像的局部区域对齐,而不是整个图像,因此提出了一种加权视觉-文本交叉对齐(WCA)的方法。
- 关键思路本文提出了一种加权视觉-文本交叉对齐(WCA)的方法,通过局部视觉提示技术来识别查询图像中的局部视觉区域,并使用预训练的VLM创建相似性矩阵来将局部视觉区域与更精细的描述进行交叉对齐,从而提高零样本学习的性能。
- 其它亮点本文的亮点包括:1. 提出了一种加权视觉-文本交叉对齐(WCA)的方法,可以显著提高零样本学习的性能;2. 通过局部视觉提示技术来识别查询图像中的局部视觉区域,并使用预训练的VLM创建相似性矩阵来将局部视觉区域与更精细的描述进行交叉对齐;3. 在各种数据集上进行了广泛的实验,证明了该方法的有效性;4. 与少样本学习方法相比,该方法在零样本学习中的表现也非常优秀。
- 在这个领域中的其他相关研究包括:1. 一些研究通过使用生成对抗网络(GAN)来进行零样本学习;2. 另一些研究使用元学习来进行零样本学习;3. 还有一些研究将视觉和语言信息融合起来,以提高零样本学习的性能。相关论文包括“Generative Adversarial Nets for Zero-Shot Learning”、“Meta-Learning for Zero-Shot Learning”和“Zero-Shot Learning via Visual Abstraction Refinement”等。
沙发等你来抢
去评论
评论
沙发等你来抢