Open-Vocabulary Object Detection via Neighboring Region Attention Alignment

2024年05月14日
  • 简介
    本文研究了开放式词汇目标检测(OVD),该方法在只有基础注释和开放式词汇知识的监督下,有助于检测新的物体类别。然而,我们发现在对齐过程中,区域之间的邻近关系不足,不可避免地限制了最近基于蒸馏的OVD策略的性能。因此,我们提出了邻近区域注意力对齐(NRAA),它通过一组邻近区域的注意机制来提高开放式词汇推理的性能。具体来说,对于给定的提议区域,我们随机探索邻近的框,并使用我们提出的邻近区域注意机制来提取关系信息。然后,这种交互信息被无缝地提供到蒸馏过程中,以协助检测器和预训练的视觉语言模型(VLMs)之间的对齐。广泛的实验验证了我们提出的模型在开放式词汇基准测试中表现出优越的性能。
  • 图表
  • 解决问题
    本文旨在解决开放词汇目标检测(OVD)中邻域关系不足的问题,提高开放词汇推理的性能。
  • 关键思路
    文章提出了一种邻域区域注意力对齐(NRAA)的方法,通过在一组相邻区域的注意力机制内进行对齐,提取关系信息并将其无缝地提供给蒸馏过程,从而帮助检测器和预训练视觉语言模型(VLM)之间的对齐。
  • 其它亮点
    本文的实验结果表明,NRAA方法在开放词汇基准测试中表现出优越性能。本文使用了开放词汇数据集,并提出了一种新的关系提取方法。
  • 相关研究
    近期相关研究包括《Open-Vocabulary Object Detection with Co-Attention between Image and Text》、《Distilling Object Detectors with Fine-grained Feature Imitation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论