Empowering 3D Visual Grounding with Reasoning Capabilities

2024年07月01日
  • 简介
    虽然在三维视觉定位方面已经取得了很大的进展,但是目前的模型仍然依赖于明确的文本描述来进行定位,缺乏从隐含指令中推理人类意图的能力。我们提出了一个名为“三维推理定位”的新任务,并引入了一个新的基准数据集ScanReason,其中提供了超过10K个问题-答案-位置对,涵盖了需要推理和定位协同作用的五种推理类型。我们进一步设计了我们的方法ReGround3D,它由视觉为中心的推理模块和由多模态大语言模型(MLLM)强化的三维定位模块组成,通过回顾来自三维场景的增强几何和细节信息来获取准确的物体位置。在推理过程中,我们提出了一种连锁定位机制,通过交错的推理和定位步骤进一步提高性能。在所提出的基准测试上进行的大量实验证实了我们提出方法的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了一个新的任务——3D reasoning grounding,并设计了一个新的基准数据集ScanReason,旨在解决当前3D视觉 grounding 模型仍然依赖于显式文本描述的问题,缺乏从隐含指令中推断人类意图的能力。
  • 关键思路
    论文提出了一种新的方法ReGround3D,它由视觉中心的推理模块和3D定位模块组成,通过回顾3D场景中的增强几何和细节来获取准确的物体位置,并提出了一种链式定位机制来进一步提高性能。
  • 其它亮点
    论文设计了一个新的基准数据集ScanReason,提供了超过10K个问题-答案-位置对,从五种需要推理和定位协同作用的推理类型中进行选择。论文的实验表明,ReGround3D方法在ScanReason数据集上取得了良好的性能。
  • 相关研究
    最近的相关研究包括:《EmbodiedQA: Scaling Up 3D Vision and Language Reasoning》、《3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans》、《Object-Centric Learning with Slot Attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问