- 简介机器人在长时间内导航和理解复杂环境是一个重大的挑战。与机器人互动的人可能想问一些问题,比如某件事情发生在哪里,什么时候发生的,或者它发生了多久,这需要机器人对它们的部署历史进行长时间推理。为了解决这个问题,我们引入了一种名为“Retrieval-augmented Memory for Embodied Robots”的系统,简称ReMEmbR,它是为机器人导航的长时间视觉问答而设计的。为了评估ReMEmbR,我们引入了NaVQA数据集,其中我们对长时间机器人导航视频进行了空间、时间和描述性问题的注释。ReMEmbR采用了一种结构化方法,包括记忆建立和查询阶段,利用时间信息、空间信息和图像来有效处理不断增长的机器人历史。我们的实验表明,ReMEmbR优于LLM和VLM基线,使ReMEmbR能够实现有效的长期推理,并具有低延迟。此外,我们部署了ReMEmbR到一个机器人上,并展示了我们的方法可以处理各种查询。数据集、代码、视频和其他材料可以在以下链接找到:https://nvidia-ai-iot.github.io/remembr。
- 图表
- 解决问题论文旨在解决机器人长时间导航中的问题,即如何有效地回答空间、时间和描述性问题,需要机器人进行长时间推理。
- 关键思路论文提出了一种检索增强记忆的系统ReMEmbR,采用结构化方法进行记忆构建和查询,利用时间信息、空间信息和图像来高效地处理不断增长的机器人历史记录。
- 其它亮点论文引入了NaVQA数据集,并使用ReMEmbR在机器人上进行了部署,展示了其能够处理多样化的查询。实验结果表明,ReMEmbR优于LLM和VLM基线,并具有低延迟的长时间推理能力。数据集、代码、视频和其他材料可以在链接中找到。
- 最近的相关研究包括基于记忆的机器人导航和视频问答。其中一些论文包括《Memory-Augmented Policy Optimization for Long-Horizon Visual Dialogue》和《End-to-End Learning of Task-Oriented Dialog for Robot Navigation》。
沙发等你来抢
去评论
评论
沙发等你来抢