From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

2024年04月01日
  • 简介
    这段摘要介绍了场景图生成(SGG)的目标是将视觉场景解析为下游推理任务所需的中间图形表示。尽管存在最新进展,但现有方法仍然难以生成具有新颖视觉关系概念的场景图。为了应对这一挑战,作者介绍了一种基于序列生成的新型开放词汇S GG框架。该框架利用视觉语言预训练模型(VLM),通过整合图像到图形生成范式,生成场景图序列。具体而言,我们通过VLM生成图像到文本的场景图序列,然后从这些序列构建场景图。通过这样做,我们利用了VLM的强大能力,实现了开放词汇的SGG,并无缝地集成了显式关系建模,以增强VL任务的能力。实验结果表明,我们的设计不仅实现了开放词汇的卓越性能,而且通过显式关系建模知识,增强了下游的视觉语言任务性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决场景图生成(SGG)中的新颖视觉关系概念的问题。
  • 关键思路
    本文提出了一种基于序列生成的开放词汇场景图生成框架,通过将图像转换为文本序列生成场景图,从而利用视觉-语言预训练模型(VLM)的强大能力来实现开放词汇的SGG。
  • 其它亮点
    本文的实验结果表明,该设计不仅在开放词汇方面实现了卓越性能,而且通过显式关系建模知识增强了下游视觉-语言任务的性能。本文还使用了多个数据集进行了实验,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:1)'Graph R-CNN for Scene Graph Generation';2)'Iterative Message Passing for Scene Graph Generation';3)'Neural Motifs: Scene Graph Parsing with Global Context'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问