- 简介近年来,轻量级的检索增强图像描述模型通常仅将检索到的数据用作文本提示,从而因未增强原始视觉特征而产生语义鸿沟,尤其在物体细节或复杂场景中表现更为明显。为解决这一局限,我们提出了$DualCap$,一种通过从检索到的相似图像生成视觉提示来丰富视觉表征的新方法。该模型采用双重检索机制:一方面使用标准的图像到文本检索获取文本提示,另一方面引入一种新颖的图像到图像检索来获取视觉上相似的场景。具体而言,从视觉相似场景的描述中提取出显著的关键词和短语,以捕捉关键物体及类似细节;这些文本特征随后被编码,并通过一个轻量且可训练的特征融合网络与原始图像特征进行整合。大量实验表明,与以往基于视觉提示的图像描述方法相比,我们的方法在实现具有竞争力性能的同时,所需训练参数更少。
-
- 图表
- 解决问题现有的轻量级检索增强图像描述生成模型通常仅将检索到的数据作为文本提示,导致原始视觉特征未被充分增强,尤其在物体细节和复杂场景中存在语义鸿沟。这是一个尚未被充分解决的问题,尤其是在如何有效利用视觉信息进行跨图像提示方面。
- 关键思路提出DualCap,通过引入双路检索机制:除了传统的图像到文本检索生成文本提示外,新增图像到图像检索来获取视觉上相似的场景,并从中提取显著关键词和短语,进而生成视觉提示。这些文本特征经编码后通过一个轻量级可训练的特征融合网络与原图像特征融合,从而丰富视觉表征。该方法创新性地利用视觉相似图像生成视觉提示,弥补了纯文本提示带来的语义差距。
- 其它亮点实验表明,DualCap在多个标准图像描述数据集(如COCO)上实现了具有竞争力的性能,同时所需可训练参数更少。模型设计轻量,适合资源受限场景。论文强调了视觉提示的有效性,为后续研究提供了新方向。目前未明确提及是否开源代码,但其融合策略和双检索框架值得进一步探索与扩展。
- 1. Retrieval-Augmented Generation for Vision-Language Models 2. Visual Prompting via Image-to-Image Retrieval for Dense Captioning 3. Keyword-Guided Image Captioning with Cross-Modal Attention 4. Lightweight Fusion Networks for Efficient Visual Generation 5. Semantically Coherent Image Captioning Using Retrieved Prototypes
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流