- 简介我们如何为开放式语义导航任务建立机器人,例如在新颖场景中搜索目标物体?虽然基础模型具有这些任务所需的丰富知识和泛化能力,但需要适当的场景表示来将它们连接成完整的机器人系统。我们使用Open Scene Graphs(OSGs)来解决这个问题,它是一种保留和组织开放式场景信息的拓扑语义表示法,可以为不同的环境类型进行配置。我们将基础模型和OSGs集成到OpenSearch系统中,用于开放式世界目标导航,该系统能够在自然语言中指定开放式物体并进行零样本泛化,同时在各种环境和具体实现中进行搜索。我们的OSGs增强了与大型语言模型(LLM)的推理,使其能够优于现有的LLM方法进行稳健的目标导航。通过模拟和实际实验,我们验证了OpenSearch在各种环境、机器人和新颖指令中的泛化能力。
- 图表
- 解决问题本文试图解决open-world semantic navigation任务中的场景表示问题,以便于机器人搜索目标物体。这是否是一个新问题?
- 关键思路本文提出了一种Open Scene Graphs (OSGs)的场景表示方式,用于连接基础模型和机器人系统,实现搜索目标物体的任务。OSGs能够保留和组织开放式场景信息,并且可以为不同的环境类型进行配置。
- 其它亮点本文提出的OpenSearch系统结合了基础模型和OSGs,可以通过自然语言指令搜索开放式物体,并在不同的环境、机器人和指令中进行零样本泛化。实验结果表明,OpenSearch的性能优于现有的基于大型语言模型的方法,具有较强的鲁棒性。本文还提供了实验设计、数据集和代码等方面的详细信息。
- 在这个领域中,最近的相关研究包括:《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》等。
沙发等你来抢
去评论
评论
沙发等你来抢