- 简介这段摘要讲述了场景图生成(SGG)的任务,其目的是将视觉场景解析成为一个中间的图形表示,以进行下游的推理任务。尽管现有的方法取得了一定进展,但是现有的方法仍然难以生成具有新颖视觉关系概念的场景图。为了解决这个挑战,作者引入了一种基于序列生成的新型开放词汇场景图生成框架。该框架利用视觉-语言预训练模型(VLM),并融合了图像到图形的生成范式。具体而言,我们通过使用VLM进行图像到文本生成,生成场景图序列,然后从这些序列构建场景图。通过这样做,我们利用了VLM在开放词汇场景图生成方面的强大能力,并无缝地集成了显式的关系建模,以增强VL任务。实验结果表明,我们的设计不仅在开放词汇方面实现了卓越的性能,而且通过显式关系建模知识,增强了下游的视觉-语言任务性能。
-
- 图表
- 解决问题论文旨在解决场景图生成中的一个挑战:生成包含新颖视觉关系概念的场景图。
- 关键思路该论文提出了一种基于序列生成的开放词汇场景图生成框架,利用视觉-语言预训练模型,通过图像-文本生成生成场景图序列,然后构建场景图。这种方法结合了VLM的强大能力和显式关系建模,能够提高场景图生成的性能。
- 其它亮点论文通过实验表明,该框架不仅可以实现开放词汇场景图生成的卓越性能,而且通过显式关系建模知识可以增强下游视觉-语言任务的性能。论文还使用了多个数据集进行实验,并提供了开源代码。
- 最近在这个领域的相关研究包括:"Scene Graph Generation with External Knowledge and Image Reconstruction","Improving Visual Relationship Detection using Semantic Modeling and Feature Fusion"等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流