- 简介视觉语言模型(VLMs),如Flamingo和GPT-4V,通过将大型语言模型与视觉系统集成,展示了巨大的潜力。然而,由于它们训练的是包含大多数标题而没有明确空间定位的多模态数据,因此这些模型在基本的计算机视觉任务——目标定位方面面临挑战。虽然可以构建定界框注释的自定义监督训练流水线,与VLMs集成,但这些结果是专业化的、难以扩展的模型。本文旨在探索基于标题的VLMs的极限,并提出通过以下方式解决这一挑战:i)保持标题为基础的VLM的权重不变,ii)不使用任何监督检测数据。为此,我们引入了一个输入不可知的位置插入(PIN)模块,它是一个可学习的空间提示,包含一组最小的参数,可以滑动到冻结的VLM内,从而实现目标定位能力。我们的PIN模块是通过在合成数据上进行简单的下一个标记预测任务进行训练的,而无需引入新的输出头。我们的实验展示了在各种图像上(包括Pascal VOC、COCO、LVIS和绘画或卡通等各种图像)的强大的零样本定位性能。
-
- 图表
- 解决问题本文旨在探索基于语言模型的视觉-语言模型(VLM)在物体定位方面的局限性,并提出一种更简单的解决方案。
- 关键思路本文提出了一种称为Positional Insert(PIN)的输入不可知的可学习空间提示模块,通过将其插入冻结的VLM中来解锁物体定位能力。
- 其它亮点PIN模块通过在合成数据上进行简单的下一个令牌预测任务进行训练,实现了强大的零样本物体定位性能。实验结果表明,该方法在多种图像数据集上均有良好表现,包括Pascal VOC、COCO、LVIS以及绘画或卡通等多种图像类型。论文的代码已经开源。
- 近期的相关研究包括:《End-to-End Object Detection with Transformers》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流