Map-based Modular Approach for Zero-shot Embodied Question Answering

简介

建造能够通过自然语言与人类进行交互的机器人，在视觉世界中提出了机器人领域的重大挑战。为了克服这一挑战，提出了具有体验式问答（EQA）的基准任务，以衡量在回答人类提出的问题时，识别通过以前未见过的环境中的物体的能力。虽然一些方法已经被提出，但它们的评估仅限于模拟，没有在实际场景中进行实验。此外，所有这些方法都受到有限的词汇表的限制，不适用于实际应用。在这项工作中，我们提出了一种基于地图的模块化EQA方法，通过基于前沿的地图创建来使真实机器人在未知环境中导航，并使用支持开放词汇表的基础模型来处理未知的问答对。与之前的Matterport 3D（MP3D）EQA数据集中的问题不同，我们实际实验中的问题包含了许多不包括在训练数据中的问题格式和词汇。我们在虚拟环境（MP3D-EQA）和两个真实世界的房屋环境中进行了全面的实验，并证明我们的方法可以在现实世界中执行EQA。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

该论文旨在解决机器人在未知环境中通过自然语言进行交互的问题，提出了基于地图的模块化方法，并在真实环境中进行了实验验证。

关键思路

论文提出了基于地图的模块化EQS方法，通过前沿地图创建和基础模型支持开放词汇来解决问题。

其它亮点

论文在虚拟环境和两个真实环境中进行了全面的实验，并证明了该方法可以在真实世界中进行EQS。

Map-based Modular Approach for Zero-shot Embodied Question Answering

提问交流

提问交流