- 简介虽然在三维视觉基础方面已经取得了很大的进展,但目前的模型仍然依赖于显式的文本描述来进行基础,缺乏从隐含指令中推理人类意图的能力。我们提出了一个名为“三维推理基础”的新任务,并引入了一个新的基准ScanReason,它提供了来自五种需要推理和基础协同的推理类型的超过10K个问题-答案-位置对。我们进一步设计了我们的方法ReGround3D,它由视觉中心推理模块和由多模式大语言模型(MLLM)强化的三维基础模块组成,通过回顾来自三维场景的增强几何和细节来获得准确的物体位置。在推理过程中,我们提出了一种基于链式基础机制来进一步提高性能的方法,其中推理和基础步骤交替进行。在所提出的基准测试上进行的大量实验证实了我们所提出的方法的有效性。
- 图表
- 解决问题本论文提出了一个新的任务——3D推理定位,并引入了一个新的基准测试ScanReason,旨在提供五种推理类型的10K个问题-答案-位置对,需要通过推理和定位的协同来完成。论文试图解决当前3D视觉定位模型仍然依赖于显式文本描述的问题,缺乏从隐含指令中推断人类意图的能力。
- 关键思路ReGround3D是论文提出的方法,它由视觉中心的推理模块和3D定位模块组成,通过多模态大语言模型(MLLM)增强几何和细节信息,实现准确的物体定位。推理和定位步骤在推理过程中交替进行,提出了一种链式定位机制,进一步提高了性能。
- 其它亮点论文提出了一个新的任务和基准测试,提出了一种新的方法,使用了多模态大语言模型,提出了一种链式定位机制,实验结果表明该方法有效。论文还使用了开源数据集和代码,方便其他研究者进行进一步研究。
- 最近在这个领域中,还有一些相关的研究,如:《3D场景理解综述》、《3D场景理解中的几何信息研究》、《基于视觉-语言表示学习的3D场景理解》等。
沙发等你来抢
去评论
评论
沙发等你来抢