- 简介视觉语言模型(VLM)由于其强大的多模态信息集成、视觉推理能力和上下文感知能力,在各种任务中尤为重要,特别是在视觉推理任务中。然而,现有的VLM的视觉空间推理能力通常不足,甚至在区分左右等基本任务上也会遇到困难。为了解决这个问题,我们提出了\ours{}模型,旨在增强VLM的视觉空间推理能力。ZeroVLM采用Zero-1-to-3,一种3D重建模型,用于获取输入图像的不同视角,并采用提示机制进一步改善视觉空间推理。在四个视觉空间推理数据集上的实验结果表明,我们的\ours{}模型的准确率提高了高达19.48%,这表明我们的ZeroVLM的3D重建和提示机制非常有效。
-
- 图表
- 解决问题本文旨在提高视觉空间推理的能力,解决现有VLM模型在视觉空间推理方面的不足,例如识别左右之类的基本任务。
- 关键思路本文提出了ZeroVLM模型,利用3D重建模型Zero-1-to-3获取输入图像的不同视角,并加入提示机制以进一步提高视觉空间推理能力。
- 其它亮点本文在四个视觉空间推理数据集上进行实验,结果显示ZeroVLM模型的准确率提高了高达19.48%。此外,本文还提供了开源代码。
- 最近的相关研究包括:《A Baseline for Visual Reasoning》、《Visual Reasoning with Multi-hop Feature Modulation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流