Grounding Spatial Relations in Text-Only Language Models

简介

本文表明，如果给予文本语言模型（LM）明确的物体位置信息，并适当训练它们利用这些位置信息，那么它们可以学习到像“左侧”或“下方”这样的空间关系。我们在Visual Spatial Reasoning（VSR）数据集的口头化版本上进行了实验，其中图像与包含图像中两个对象之间真实或虚假空间关系的文本语句相结合。我们使用现成的物体检测器口头描述图像，将位置标记添加到每个物体标签中，以文本形式表示它们的边界框。由于VSR的规模较小，因此当使用位置标记时我们并没有观察到任何改进，但是预先训练LM在我们自己合成的数据集上显著提高了结果。因此，我们展示了位置允许LM对空间关系进行基础，我们的纯文本LM优于视觉语言模型，并为VSR数据集设定了新的最佳表现。我们的分析表明，我们的纯文本LM可以在一定程度上推广到合成数据集中看到的关系之外，学习到比我们用于创建合成数据集的空间规则中编码的更有用的信息。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探究文本语言模型（LM）是否能够通过提供显式的物体位置信息来学习和理解空间关系，从而解决视觉空间推理（VSR）问题。
关键思路

本论文提出了一种基于位置信息的文本语言模型，通过预训练和使用位置标记，使得模型能够理解和推断物体之间的空间关系。
其它亮点

论文使用了VSR数据集进行实验，使用了一个现成的物体检测器来标记物体位置，并在预训练的合成数据集上进行了训练。实验结果表明，本文提出的文本语言模型优于视觉语言模型，并取得了VSR数据集的最新最好成绩。此外，本文还发现，该模型能够泛化到合成数据集中未见过的空间关系。
相关研究

在该领域中，还有一些相关研究，例如：《Learning to Map Natural Language Instructions to Physical Quadrotor Control Using Simulated Examples》、《Visual Semantic Navigation using Scene Priors》等。

Grounding Spatial Relations in Text-Only Language Models

提问交流

提问交流