From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

2024年04月01日
  • 简介
    这段摘要讲述了场景图生成(SGG)的任务,其目的是将视觉场景解析成为一个中间的图形表示,以进行下游的推理任务。尽管现有的方法取得了一定进展,但是现有的方法仍然难以生成具有新颖视觉关系概念的场景图。为了解决这个挑战,作者引入了一种基于序列生成的新型开放词汇场景图生成框架。该框架利用视觉-语言预训练模型(VLM),并融合了图像到图形的生成范式。具体而言,我们通过使用VLM进行图像到文本生成,生成场景图序列,然后从这些序列构建场景图。通过这样做,我们利用了VLM在开放词汇场景图生成方面的强大能力,并无缝地集成了显式的关系建模,以增强VL任务。实验结果表明,我们的设计不仅在开放词汇方面实现了卓越的性能,而且通过显式关系建模知识,增强了下游的视觉-语言任务性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决场景图生成中的一个挑战:生成包含新颖视觉关系概念的场景图。
  • 关键思路
    该论文提出了一种基于序列生成的开放词汇场景图生成框架,利用视觉-语言预训练模型,通过图像-文本生成生成场景图序列,然后构建场景图。这种方法结合了VLM的强大能力和显式关系建模,能够提高场景图生成的性能。
  • 其它亮点
    论文通过实验表明,该框架不仅可以实现开放词汇场景图生成的卓越性能,而且通过显式关系建模知识可以增强下游视觉-语言任务的性能。论文还使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    最近在这个领域的相关研究包括:"Scene Graph Generation with External Knowledge and Image Reconstruction","Improving Visual Relationship Detection using Semantic Modeling and Feature Fusion"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问