I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction

简介

视觉语言模型（VLM）由于其强大的多模态信息集成、视觉推理能力和上下文感知能力，在各种任务中尤为重要，特别是在视觉推理任务中。然而，现有的VLM的视觉空间推理能力通常不足，甚至在区分左右等基本任务上也会遇到困难。为了解决这个问题，我们提出了\ours{}模型，旨在增强VLM的视觉空间推理能力。ZeroVLM采用Zero-1-to-3，一种3D重建模型，用于获取输入图像的不同视角，并采用提示机制进一步改善视觉空间推理。在四个视觉空间推理数据集上的实验结果表明，我们的\ours{}模型的准确率提高了高达19.48％，这表明我们的ZeroVLM的3D重建和提示机制非常有效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高视觉空间推理的能力，解决现有VLM模型在视觉空间推理方面的不足，例如识别左右之类的基本任务。
关键思路

本文提出了ZeroVLM模型，利用3D重建模型Zero-1-to-3获取输入图像的不同视角，并加入提示机制以进一步提高视觉空间推理能力。
其它亮点

本文在四个视觉空间推理数据集上进行实验，结果显示ZeroVLM模型的准确率提高了高达19.48％。此外，本文还提供了开源代码。
相关研究

最近的相关研究包括：《A Baseline for Visual Reasoning》、《Visual Reasoning with Multi-hop Feature Modulation》等。

I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction

提问交流

提问交流