I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction

2024年07月19日
  • 简介
    视觉语言模型(VLM)由于其强大的多模态信息集成、视觉推理能力和上下文感知能力,在各种任务中尤为重要,特别是在视觉推理任务中。然而,现有的VLM的视觉空间推理能力通常不足,甚至在区分左右等基本任务上也会遇到困难。为了解决这个问题,我们提出了\ours{}模型,旨在增强VLM的视觉空间推理能力。ZeroVLM采用Zero-1-to-3,一种3D重建模型,用于获取输入图像的不同视角,并采用提示机制进一步改善视觉空间推理。在四个视觉空间推理数据集上的实验结果表明,我们的\ours{}模型的准确率提高了高达19.48%,这表明我们的ZeroVLM的3D重建和提示机制非常有效。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提高视觉空间推理的能力,解决现有VLM模型在视觉空间推理方面的不足,例如识别左右之类的基本任务。
  • 关键思路
    本文提出了ZeroVLM模型,利用3D重建模型Zero-1-to-3获取输入图像的不同视角,并加入提示机制以进一步提高视觉空间推理能力。
  • 其它亮点
    本文在四个视觉空间推理数据集上进行实验,结果显示ZeroVLM模型的准确率提高了高达19.48%。此外,本文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《A Baseline for Visual Reasoning》、《Visual Reasoning with Multi-hop Feature Modulation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问