Learning Visual Grounding from Generative Vision and Language Model

2024年07月18日
  • 简介
    本文旨在通过自然语言描述来定位图像中的区域。我们探索了是否可以利用主要训练于图像-文本数据的生成式VLM来扩大视觉定位数据的文本注释。我们发现,生成式VLM中已经存在定位知识,可以通过适当的提示来引出。因此,我们提示VLM生成基于物体的描述,通过将现有的物体检测数据集中的物体区域输入到VLM中。我们进一步提出属性建模来明确捕捉重要的物体属性,以及空间关系建模来捕捉相互关联的物体关系,这两者都是指称表达中常见的语言模式。我们构建的数据集(500K张图像,1M个物体,16M个指称表达式)是迄今为止最大的定位数据集之一,也是第一个具有纯模型生成的查询和人工注释的对象的定位数据集。为了验证这些数据的质量,我们对流行的RefCOCO基准进行了零样本转移实验,用于指称表达式理解(REC)和分割(RES)任务。在这两个任务中,我们的模型显著优于现有的最先进方法,而不使用人工注释的视觉定位数据。我们的结果证明了生成式VLM在扩大现实世界中的视觉定位方面的潜力。代码和模型将会发布。
  • 图表
  • 解决问题
    本文旨在探讨是否可以利用基于图像-文本数据训练的生成式VLM来扩大视觉定位数据的文本注释,并构建更大规模的视觉定位数据集。
  • 关键思路
    本文通过提出属性建模和空间关系建模的方法,从已有的物体检测数据集中提取对象区域,利用生成式VLM生成对象级别的描述,构建了一个包含500K张图像、1M个对象和16M个指代表达的数据集,并进行了零样本迁移实验,证明了该数据集的有效性。
  • 其它亮点
    本文构建了一个包含500K张图像、1M个对象和16M个指代表达的数据集,是迄今为止最大的视觉定位数据集之一,同时也是第一个使用模型生成查询和人工注释对象的定位数据集。实验结果表明,该方法在不使用人工注释的视觉定位数据的情况下,比现有方法在指代表达理解和分割任务上表现更好。作者将代码和模型公开。
  • 相关研究
    最近的相关研究包括:《Referring Relationships》、《Referring Segmentation via Auto-Encoder》、《Grounding Referring Expressions in Images by Variational Context》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论