Grounding Everything: Emerging Localization Properties in Vision-Language Transformers

2023年12月01日
  • 简介
    视觉语言基础模型在各种零样本设置中表现出了卓越的性能,例如图像检索、分类或字幕生成。但是到目前为止,当涉及到图像中指称表达和物体的零样本定位时,这些模型似乎落后了。因此,它们需要进行微调以完成此任务。在本文中,我们展示了预训练的视觉语言(VL)模型允许进行零样本开放词汇的物体定位,而无需任何微调。为了利用这些能力,我们提出了一个Grounding Everything Module(GEM),它将CLIPSurgery引入的value-value attention的思想推广到一个自我-自我注意力路径。我们展示了自我-自我注意力的概念对应于聚类,因此强制来自同一对象的标记组成的组类似,同时保持与语言空间的对齐。为了进一步指导组的形成,我们提出了一组规则化方法,使模型最终能够在数据集和骨干之间进行泛化。我们在各种语义分割的基准任务和数据集上评估了所提出的GEM框架。结果表明,GEM不仅优于其他无需训练的开放词汇定位方法,而且在最近提出的OpenImagesV7大规模分割基准测试中取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决当前视觉语言(VL)模型在零样本物体定位方面表现不佳的问题,提出了一种不需要微调即可进行零样本开放词汇物体定位的方法。
  • 关键思路
    该论文提出了Grounding Everything Module(GEM)的概念,通过将CLIPSurgery中的value-value attention推广到self-self attention path,实现了聚类的效果,从而使得来自同一物体的token形成相似的组,并且保持与语言空间的对齐。同时,该论文还提出了一组正则化方法,以进一步指导组的形成。
  • 其它亮点
    该论文的实验结果表明,GEM方法不仅优于其他不需要训练即可进行零样本开放词汇物体定位的方法,而且在最近提出的OpenImagesV7大规模分割基准测试中取得了最先进的结果。此外,论文还介绍了使用的数据集和开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《Zero-shot Object Detection》、《Zero-shot Object Detection via Vision and Language Knowledge Distillation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问