使用场景图将结构化表示纳入预训练的视觉和语言模型中

Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs

解决问题：本篇论文旨在探索如何将场景图（SG）注释融入预训练的视觉和语言模型，以提高模型对于场景理解的能力。目前，即使是最好的视觉和语言模型也难以捕捉到场景理解的各个方面，如对象属性、关系和动作状态。但是，获取结构化的注释（例如场景图）需要耗费大量时间和金钱，因此无法大规模使用。因此，本论文试图探讨是否可以利用包含SG注释的小数据集来提高VL模型的性能。

关键思路：本文的关键思路是利用一个专门的模型架构和新的训练范式，直接监督视觉编码器和文本编码器，从SG标签中捕捉与结构相关的信息。本文使用SG监督来生成基于各种图形增强的细粒度字幕，突出场景的不同组成方面，并通过向视觉编码器添加特殊的“自适应SG令牌”，使用开放式词汇表方法预测SG信息。此外，本文设计了一种针对SG令牌的新适应技术，以在保持零-shot能力的同时更好地学习图形预测任务。相比当前领域的研究，本文的思路在于利用小数据集来提高VL模型的性能，同时使用了一种新的训练范式和模型架构。

其他亮点：本文的实验设计中使用了Winoground和VL-checklist数据集，并展示了该方法在这些数据集上的强大性能提升。此外，本文还提出了一种新的自适应SG令牌和适应技术，这些都是值得关注的创新点。本文的代码和数据集已经开源，这对于后续的研究工作也是有帮助的。本文的方法还可以在更广泛的领域中得到应用，例如自然语言生成、视觉问题回答等。

关于作者：本文的主要作者包括Roei Herzig、Alon Mendelson、Leonid Karlinsky、Assaf Arbelle、Rogerio Feris、Trevor Darrell和Amir Globerson。他们分别来自IBM Research、Tel Aviv University、NVIDIA、UC Berkeley和The Hebrew University of Jerusalem等机构。在之前的代表作中，Roei Herzig曾经在“Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks”中提出了一种用于自监督辅助推理的方法，而Trevor Darrell则在“Learning to Navigate the Web”中提出了一种基于强化学习的网页导航方法。

相关研究：近期的相关研究包括“Scene Graph Generation with Differentiable Reasoning on Indirect Visual Relationships”（作者：Xin Wang等，机构：Carnegie Mellon University）和“Visual Grounding via Dense Scene Graph Generation”（作者：Yikang Li等，机构：University of Illinois at Urbana-Champaign）等。这些研究都涉及到如何利用场景图来提高视觉和语言模型的性能。

论文摘要：本文讨论了在预训练的视觉和语言模型中加入场景图（SG）的结构化表示是否能够提高模型的性能。作者指出，尽管视觉和语言模型在许多任务中表现出了出色的零样本性能，但最好的模型仍然难以捕捉场景理解的各个方面，如物体属性、关系和动作状态。然而，获取结构化注释，例如场景图，是费时、昂贵和繁琐的，因此不能在大规模上使用。本文的研究问题是：包含SG注释的小型数据集是否能够提供足够的信息来增强VL模型的结构化理解？作者通过使用专门的模型架构和新的训练范式，展示了利用这样的数据来改进VL模型是可行的。该方法通过直接监督视觉和文本编码器来捕捉与结构相关的信息。作者使用场景图监督来生成基于各种图形增强的细粒度字幕，突出了场景的不同组成方面，并通过向视觉编码器添加特殊的“自适应SG标记”来预测SG信息。此外，作者设计了一种针对SG标记的新的适应技术，以更好地学习图形预测任务，同时仍然保持零样本能力。在Winoground和VL-checklist数据集上，我们的模型表现出强大的性能改进，而零样本性能仅略有下降。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

使用场景图将结构化表示纳入预训练的视觉和语言模型中

评论列表

评论