From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

简介

这段摘要介绍了场景图生成（SGG）的目标是将视觉场景解析为下游推理任务所需的中间图形表示。尽管存在最新进展，但现有方法仍然难以生成具有新颖视觉关系概念的场景图。为了应对这一挑战，作者介绍了一种基于序列生成的新型开放词汇S GG框架。该框架利用视觉语言预训练模型（VLM），通过整合图像到图形生成范式，生成场景图序列。具体而言，我们通过VLM生成图像到文本的场景图序列，然后从这些序列构建场景图。通过这样做，我们利用了VLM的强大能力，实现了开放词汇的SGG，并无缝地集成了显式关系建模，以增强VL任务的能力。实验结果表明，我们的设计不仅实现了开放词汇的卓越性能，而且通过显式关系建模知识，增强了下游的视觉语言任务性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决场景图生成（SGG）中的新颖视觉关系概念的问题。
关键思路

本文提出了一种基于序列生成的开放词汇场景图生成框架，通过将图像转换为文本序列生成场景图，从而利用视觉-语言预训练模型（VLM）的强大能力来实现开放词汇的SGG。
其它亮点

本文的实验结果表明，该设计不仅在开放词汇方面实现了卓越性能，而且通过显式关系建模知识增强了下游视觉-语言任务的性能。本文还使用了多个数据集进行了实验，并提供了开源代码。
相关研究

最近的相关研究包括：1）'Graph R-CNN for Scene Graph Generation'；2）'Iterative Message Passing for Scene Graph Generation'；3）'Neural Motifs: Scene Graph Parsing with Global Context'。

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

提问交流

提问交流