Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

简介

为了充分发挥移动操纵机器人的能力，它们必须能够在大型未探索环境中自主执行长期任务。虽然大型语言模型（LLM）已经展现出对任意任务的新兴推理技能，但现有的工作主要集中在已探索的环境中，通常集中于导航或单独的操纵任务。在这项工作中，我们提出了MoMa-LLM，一种新颖的方法，将语言模型与从开放词汇场景图中派生的结构化表示相结合，随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密交织在一起。由此产生的方法是零-shot、开放词汇的，并且可以轻松扩展到一系列移动操作和家庭机器人任务。我们在大型逼真的室内环境中展示了MoMa-LLM在新颖的语义交互搜索任务中的有效性。在模拟和实际环境中进行了广泛的实验，我们展示了与传统基线和最先进方法相比显着提高的搜索效率，以及其适用于更抽象的任务。我们将代码公开发布在http://moma-llm.cs.uni-freiburg.de。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决移动机器人在大型未探索环境中执行长期任务的问题，提出了一种基于场景图和开放词汇的语言模型的方法，旨在实现零样本、开放词汇、可扩展的移动操作和家庭机器人任务。
关键思路

MoMa-LLM方法将语言模型与场景图和物体中心动作空间紧密结合，实现了动态更新场景图，从而在大型室内环境中实现了语义交互式搜索任务。
其它亮点

本文提出的MoMa-LLM方法在大型室内环境中实现了语义交互式搜索任务，与传统基线和最先进方法相比，搜索效率显著提高。本文代码公开可用。
相关研究

最近的相关研究包括：1）使用深度学习技术进行移动机器人导航和操作任务；2）使用场景图表示环境和物体；3）使用语言模型进行自然语言指令理解。

Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

提问交流

提问交流