Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs

解决问题:本篇论文旨在探索如何将场景图(SG)注释融入预训练的视觉和语言模型,以提高模型对于场景理解的能力。目前,即使是最好的视觉和语言模型也难以捕捉到场景理解的各个方面,如对象属性、关系和动作状态。但是,获取结构化的注释(例如场景图)需要耗费大量时间和金钱,因此无法大规模使用。因此,本论文试图探讨是否可以利用包含SG注释的小数据集来提高VL模型的性能。

关键思路:本文的关键思路是利用一个专门的模型架构和新的训练范式,直接监督视觉编码器和文本编码器,从SG标签中捕捉与结构相关的信息。本文使用SG监督来生成基于各种图形增强的细粒度字幕,突出场景的不同组成方面,并通过向视觉编码器添加特殊的“自适应SG令牌”,使用开放式词汇表方法预测SG信息。此外,本文设计了一种针对SG令牌的新适应技术,以在保持零-shot能力的同时更好地学习图形预测任务。相比当前领域的研究,本文的思路在于利用小数据集来提高VL模型的性能,同时使用了一种新的训练范式和模型架构。

其他亮点:本文的实验设计中使用了Winoground和VL-checklist数据集,并展示了该方法在这些数据集上的强大性能提升。此外,本文还提出了一种新的自适应SG令牌和适应技术,这些都是值得关注的创新点。本文的代码和数据集已经开源,这对于后续的研究工作也是有帮助的。本文的方法还可以在更广泛的领域中得到应用,例如自然语言生成、视觉问题回答等。

关于作者:本文的主要作者包括Roei Herzig、Alon Mendelson、Leonid Karlinsky、Assaf Arbelle、Rogerio Feris、Trevor Darrell和Amir Globerson。他们分别来自IBM Research、Tel Aviv University、NVIDIA、UC Berkeley和The Hebrew University of Jerusalem等机构。在之前的代表作中,Roei Herzig曾经在“Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks”中提出了一种用于自监督辅助推理的方法,而Trevor Darrell则在“Learning to Navigate the Web”中提出了一种基于强化学习的网页导航方法。

相关研究:近期的相关研究包括“Scene Graph Generation with Differentiable Reasoning on Indirect Visual Relationships”(作者:Xin Wang等,机构:Carnegie Mellon University)和“Visual Grounding via Dense Scene Graph Generation”(作者:Yikang Li等,机构:University of Illinois at Urbana-Champaign)等。这些研究都涉及到如何利用场景图来提高视觉和语言模型的性能。

论文摘要:本文讨论了在预训练的视觉和语言模型中加入场景图(SG)的结构化表示是否能够提高模型的性能。作者指出,尽管视觉和语言模型在许多任务中表现出了出色的零样本性能,但最好的模型仍然难以捕捉场景理解的各个方面,如物体属性、关系和动作状态。然而,获取结构化注释,例如场景图,是费时、昂贵和繁琐的,因此不能在大规模上使用。本文的研究问题是:包含SG注释的小型数据集是否能够提供足够的信息来增强VL模型的结构化理解?作者通过使用专门的模型架构和新的训练范式,展示了利用这样的数据来改进VL模型是可行的。该方法通过直接监督视觉和文本编码器来捕捉与结构相关的信息。作者使用场景图监督来生成基于各种图形增强的细粒度字幕,突出了场景的不同组成方面,并通过向视觉编码器添加特殊的“自适应SG标记”来预测SG信息。此外,作者设计了一种针对SG标记的新的适应技术,以更好地学习图形预测任务,同时仍然保持零样本能力。在Winoground和VL-checklist数据集上,我们的模型表现出强大的性能改进,而零样本性能仅略有下降。

内容中包含的图片若涉及版权问题,请及时与我们联系删除