From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

简介

这段摘要讲述了场景图生成（SGG）的任务，其目的是将视觉场景解析成为一个中间的图形表示，以进行下游的推理任务。尽管现有的方法取得了一定进展，但是现有的方法仍然难以生成具有新颖视觉关系概念的场景图。为了解决这个挑战，作者引入了一种基于序列生成的新型开放词汇场景图生成框架。该框架利用视觉-语言预训练模型（VLM），并融合了图像到图形的生成范式。具体而言，我们通过使用VLM进行图像到文本生成，生成场景图序列，然后从这些序列构建场景图。通过这样做，我们利用了VLM在开放词汇场景图生成方面的强大能力，并无缝地集成了显式的关系建模，以增强VL任务。实验结果表明，我们的设计不仅在开放词汇方面实现了卓越的性能，而且通过显式关系建模知识，增强了下游的视觉-语言任务性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决场景图生成中的一个挑战：生成包含新颖视觉关系概念的场景图。
关键思路

该论文提出了一种基于序列生成的开放词汇场景图生成框架，利用视觉-语言预训练模型，通过图像-文本生成生成场景图序列，然后构建场景图。这种方法结合了VLM的强大能力和显式关系建模，能够提高场景图生成的性能。
其它亮点

论文通过实验表明，该框架不仅可以实现开放词汇场景图生成的卓越性能，而且通过显式关系建模知识可以增强下游视觉-语言任务的性能。论文还使用了多个数据集进行实验，并提供了开源代码。
相关研究

最近在这个领域的相关研究包括："Scene Graph Generation with External Knowledge and Image Reconstruction"，"Improving Visual Relationship Detection using Semantic Modeling and Feature Fusion"等。

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

提问交流

提问交流