Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

向作者提问

NEW

简介

为了充分利用移动操纵机器人的能力，它们必须能够在大型未探索环境中自主执行长期任务。虽然大型语言模型(LLMs)已经展示了在任意任务上的新兴推理技能，但现有的工作主要集中在已探索的环境中，通常集中于导航或操纵任务的独立处理。在本研究中，我们提出了MoMa-LLM，这是一种新颖的方法，它将语言模型与从开放词汇场景图中推导出的结构化表示相结合，这些表示会随着环境的探索而动态更新。我们将这些表示与以物体为中心的行动空间紧密交织在一起。由此产生的方法是零样本、开放词汇的，并且可以方便地扩展到一系列移动操纵和家庭机器人任务。我们在大型现实室内环境中展示了MoMa-LLM在一项新的语义交互搜索任务中的有效性。在模拟和实际世界的广泛实验中，我们展示了与传统基线和最先进方法相比大大提高的搜索效率，以及它在更抽象任务上的适用性。我们在http://moma-llm.cs.uni-freiburg.de上公开了代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决移动操作机器人在大型未探索环境中自主执行长期任务的问题。现有工作主要集中在探索过的环境中，通常集中于导航或单独的操作任务。
关键思路

本文提出了MoMa-LLM，一种将语言模型与从开放词汇场景图派生的结构化表示相结合的方法。这种方法可以零样本、开放词汇，并且可以轻松扩展到一系列移动操作和家庭机器人任务。该方法与面向对象的动作空间紧密交织在一起。
其它亮点

本文在大型现实室内环境中展示了MoMa-LLM在新颖的语义交互搜索任务中的有效性。在模拟和实际世界的广泛实验中，我们展示了与传统基线和最先进方法相比，搜索效率显著提高的结果，以及其适用于更抽象的任务。我们将代码公开在http://moma-llm.cs.uni-freiburg.de。
相关研究

在最近的相关研究中，有一篇题为“Language Understanding for Text-based Games Using Deep Reinforcement Learning”的论文。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问