O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation

2024年04月10日
  • 简介
    在线构建开放式语言场景对于机器人应用非常重要,因为需要进行开放词汇的交互式场景理解。最近,神经隐式表示为在线交互式映射提供了一个有前途的方向。然而,将开放式词汇场景理解能力实现到在线神经隐式映射中仍面临三个挑战:缺乏局部场景更新能力,模糊的空间分层语义分割和难以保持多视角一致性。为此,我们提出了O2V-mapping,利用基于体素的语言和几何特征创建开放式词汇场,从而允许在在线训练过程中进行局部更新。此外,我们利用图像分割的基础模型提取对象级别实体上的语言特征,实现清晰的分割边界和分层语义特征。为了保持不同视角下的三维对象属性的一致性,我们提出了一个空间自适应体素调整机制和一个多视角权重选择方法。广泛的开放式词汇对象定位和语义分割实验表明,O2V-mapping实现了语言场景的在线构建,同时提高了准确性,优于之前的SOTA方法。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决在线构建开放式语言场景的问题,其中需要进行开放式词汇交互式场景理解。然而,将开放式词汇场景理解能力实现到在线神经隐式映射中仍然面临着三个挑战:缺乏本地场景更新能力、模糊的空间分层语义分割和难以保持多视角一致性。
  • 关键思路
    本文提出了O2V-mapping,利用基于体素的语言和几何特征创建开放式词汇场,并允许在线训练过程中进行本地更新。此外,我们利用图像分割的基础模型提取对象级实体上的语言特征,实现清晰的分割边界和分层语义特征。为了保持不同视角下三维物体属性的一致性,我们提出了一种空间自适应体素调整机制和多视图权重选择方法。
  • 其它亮点
    本文的亮点在于提出了一种新的方法来实现在线构建语言场景,同时增强了准确性,优于之前的最先进方法。同时,本文的实验设计详细,使用了多个数据集,提供了开源代码。值得进一步研究的工作包括如何将该方法应用于更大的场景和如何进一步提高准确性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:"Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes"和"Dynamic Object-Level Scene Graphs for Vision-to-Language"。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问