Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

2024年03月13日
  • 简介
    为了充分发挥移动操纵机器人的能力,它们必须能够在大型未探索环境中自主执行长期任务。虽然大型语言模型(LLM)已经展现出对任意任务的新兴推理技能,但现有的工作主要集中在已探索的环境中,通常集中于导航或单独的操纵任务。在这项工作中,我们提出了MoMa-LLM,一种新颖的方法,将语言模型与从开放词汇场景图中派生的结构化表示相结合,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密交织在一起。由此产生的方法是零-shot、开放词汇的,并且可以轻松扩展到一系列移动操作和家庭机器人任务。我们在大型逼真的室内环境中展示了MoMa-LLM在新颖的语义交互搜索任务中的有效性。在模拟和实际环境中进行了广泛的实验,我们展示了与传统基线和最先进方法相比显着提高的搜索效率,以及其适用于更抽象的任务。我们将代码公开发布在http://moma-llm.cs.uni-freiburg.de。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决移动机器人在大型未探索环境中执行长期任务的问题,提出了一种基于场景图和开放词汇的语言模型的方法,旨在实现零样本、开放词汇、可扩展的移动操作和家庭机器人任务。
  • 关键思路
    MoMa-LLM方法将语言模型与场景图和物体中心动作空间紧密结合,实现了动态更新场景图,从而在大型室内环境中实现了语义交互式搜索任务。
  • 其它亮点
    本文提出的MoMa-LLM方法在大型室内环境中实现了语义交互式搜索任务,与传统基线和最先进方法相比,搜索效率显著提高。本文代码公开可用。
  • 相关研究
    最近的相关研究包括:1)使用深度学习技术进行移动机器人导航和操作任务;2)使用场景图表示环境和物体;3)使用语言模型进行自然语言指令理解。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问