Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph

2024年06月11日
  • 简介
    定位自然语言中提到的物体对于自主代理来说是一个重大挑战。现有的基于CLIP的开放词汇方法可以成功地执行带有简单查询的3D物体检索,但无法处理需要理解物体关系的歧义描述。为了解决这个问题,我们提出了一种模块化方法,称为BBQ(Beyond Bare Queries),它使用度量边构建3D场景空间图表示,并通过我们的演绎场景推理算法利用大型语言模型作为人到代理的接口。BBQ利用强大的DINO关联形成3D物体,使用先进的射线投射算法将它们投射到2D,并使用视觉语言模型将它们描述为图形节点。在Replica和ScanNet数据集上,我们展示了这种设计方法可以准确地构建3D物体为中心的地图。我们已经证明,与其他零样本方法相比,它们的质量在开放词汇3D语义分割中处于领先地位。此外,我们还表明,利用空间关系对于包含同一语义类的多个实体的场景尤其有效。在Sr3D和Nr3D基准测试中,我们的演绎方法展示了显著的改进,使得与其他最先进的方法相比,可以通过复杂的查询检索对象。考虑到我们的设计解决方案,我们实现了一个处理速度约为最接近模拟器的3倍的处理速度。这种有前途的性能使我们的方法可以在应用智能机器人项目中使用。我们在linukc.github.io/bbq/上公开了代码。
  • 图表
  • 解决问题
    论文旨在解决自主智能体在自然语言描述中定位物体的问题,特别是处理需要理解物体关系的模糊描述。
  • 关键思路
    论文提出了一种模块化方法BBQ,它利用大型语言模型作为人到智能体的接口,通过推理场景算法构建3D场景空间图表示,并使用DINO-powered关联形成3D对象,使用高级光线投射算法将它们投射到2D,并使用视觉语言模型将它们描述为图形节点。BBQ在多个数据集上展示了高质量的性能,并且处理速度比最接近的模型快三倍。
  • 其它亮点
    论文使用了Replica、ScanNet、Sr3D和Nr3D数据集,展示了高质量的性能。BBQ的处理速度比最接近的模型快三倍,这使得BBQ可以在实际的智能机器人项目中使用。代码已经公开并可用。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《End-to-End Learning of Semantic Grasping》、《Learning to Grasp with Hemispheric Representations》、《Semantic Grasping: Achieving Robustness through Adaptable Object Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论