Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

简介

视觉关系检测旨在识别图像中的对象及其关系。以往的方法是在现有的目标检测架构中添加独立的关系模块或解码器来完成此任务。这种分离增加了复杂性，阻碍了端到端的训练，从而限制了性能。我们提出了一种简单且高效的无解码器架构，用于开放词汇视觉关系检测。我们的模型由基于Transformer的图像编码器组成，将对象表示为标记，并隐式地建模它们之间的关系。为了提取关系信息，我们引入了一种注意机制，选择可能形成关系的对象对。我们提供了一个单阶段的配方，用于在混合的对象和关系检测数据上训练此模型。我们的方法在Visual Genome和大词汇GQA基准测试中实现了最先进的关系检测性能，并具有实时推理速度。我们提供了零样本性能、消融和真实世界定性示例的分析。
图表
解决问题

解决开放词汇下的视觉关系检测问题，提高模型性能和训练效率。
关键思路

提出一种基于Transformer的编码器-解码器模型，使用注意力机制隐式地建模对象之间的关系，避免了传统方法中添加关系模块或解码器的复杂性和训练难度。
其它亮点

该模型在Visual Genome和GQA数据集上实现了最先进的关系检测性能，并且具有实时推理速度。实验设计简单，使用混合的对象和关系检测数据进行训练。研究还分析了零样本性能，消融实验和实际应用场景的定性实例。
相关研究

近期相关研究包括：Visual Relationship Detection with Language Priors、Scene Graph Generation from Objects、Context-aware Visual Compatibility Prediction等。

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

评论