- 简介开放式词汇移动操作(OVMM)对于自主机器人尤其重要,特别是面对未知和动态环境所带来的挑战。这项任务要求机器人探索并建立对周围环境的语义理解,生成可行的计划以实现操作目标,适应环境变化,并理解人类的自然语言指令。为了解决这些挑战,我们提出了一种新的框架,利用预训练视觉语言模型(VLMs)的零样本检测和基于实体的识别能力,结合密集的三维实体重建来构建三维语义地图。此外,我们利用大型语言模型(LLMs)进行空间区域抽象和在线规划,结合人类指令和空间语义上下文。我们建立了一个10自由度移动操作机器人平台JSR-1,并在真实世界机器人实验中证明了我们提出的框架可以有效地捕捉空间语义和处理自然语言用户指令,用于动态环境下的零样本OVMM任务,105个实验中的导航和任务成功率分别为80.95%和73.33%,与基线相比,SFT和SPL分别提高了157.18%和19.53%。此外,当初始计划失败时,该框架能够基于从三维语义地图中推导出的空间语义上下文重新规划到下一个最可能的候选位置,保持平均成功率为76.67%。
-
- 图表
- 解决问题OVMM是自主机器人的重要能力之一,但面临未知和动态环境的挑战。本文旨在提出一种新的框架,结合预训练的视觉语言模型和稠密的3D实体重建,构建3D语义地图,利用大型语言模型进行空间区域抽象和在线规划,以实现零-shot OVMM任务。
- 关键思路本文的关键思路是将预训练的视觉语言模型和稠密的3D实体重建相结合,构建3D语义地图,并利用大型语言模型进行空间区域抽象和在线规划,以实现零-shot OVMM任务。
- 其它亮点本文通过实现一个10-DoF机器人平台JSR-1,并进行实际机器人实验,证明了该框架可以有效地捕捉空间语义和处理自然语言用户指令,具有较好的性能表现。此外,本文还实现了基于3D语义地图的重新规划,以提高任务成功率。
- 在相关研究方面,最近的研究包括:Learning to Navigate in Cities Without a Map,Zero-shot Object Detection,以及Grounded Language Learning in a Simulated 3D World等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流