- 简介最近的开放式词汇机器人地图方法使用预先训练的视觉语言特征丰富了密集几何地图。虽然这些地图允许在查询某个语言概念时预测逐点显著性地图,但大规模环境和超出对象级别的抽象查询仍然构成了相当大的障碍,最终限制了语言驱动的机器人导航。在这项工作中,我们提出了HOV-SG,一种用于语言驱动的机器人导航的分层开放式词汇3D场景图映射方法。利用开放式词汇视觉基础模型,我们首先在3D中获得了最先进的开放式词汇分割级地图,随后构建由地板、房间和对象概念组成的3D场景图层次结构,每个概念都丰富了开放式词汇特征。我们的方法能够表示多层建筑,并使用跨楼层Voronoi图使机器人遍历这些建筑。HOV-SG在三个不同的数据集上进行评估,在对象、房间和楼层级别上超过以前的基线,同时与密集的开放式词汇地图相比,减少了75%的表示大小。为了证明HOV-SG的功效和泛化能力,我们展示了在现实世界的多层环境中成功的长期视角语言条件的机器人导航。我们在http://hovsg.github.io/上提供了代码和试验视频数据。
- 图表
- 解决问题论文旨在通过提出一种新的分层开放词汇3D场景图映射方法,解决语言驱动的机器人导航中的抽象查询和大规模环境的问题。
- 关键思路论文的关键思路是将先前的开放词汇视觉基础模型应用于3D场景图映射,构建由楼层、房间和物体概念组成的分层3D场景图层次结构,提高了语言驱动机器人导航的准确性和效率。
- 其它亮点论文在三个不同的数据集上进行了评估,并在物体、房间和楼层级别上超过了以前的基线,同时相比密集的开放词汇地图减少了75%的表示大小。论文还展示了在真实世界的多层环境中成功进行长时间跨层次的语言驱动机器人导航的实验,并提供了代码和试验视频数据。
- 最近在这个领域中,还有一些相关的研究,例如《Open-Vocabulary Object Retrieval and Localization with Native Language Queries》和《Language Grounding of Navigation in Partially Observable Environments with Distant Supervision》等。
沙发等你来抢
去评论
评论
沙发等你来抢