Explore until Confident: Efficient Exploration for Embodied Question Answering

向作者提问

NEW

简介

本文考虑了“具身问答”（EQA）问题，即指代机器人等具身智能体需要主动探索环境以收集信息，直到对问题的答案有信心的情境。本文利用大型视觉语言模型（VLMs）强大的语义推理能力来高效探索和回答此类问题。然而，在EQA中使用VLMs存在两个主要挑战：它们没有内部记忆来映射场景以能够规划随时间的探索，而且它们的置信度可能被错误地校准，导致机器人过早停止探索或过度探索。为此，本文提出了一种方法，首先基于深度信息和VLM的视觉提示构建场景的语义地图，利用其对场景相关区域的广泛知识进行探索。接下来，我们使用符合性预测来校准VLM的问题回答置信度，使机器人知道何时停止探索，从而实现更加准确和高效的探索策略。为了在仿真中测试我们的框架，我们还贡献了一个新的EQA数据集，其中包含多样化、逼真的人机场景和基于Habitat-Matterport 3D研究数据集（HM3D）的场景。仿真和真实机器人实验表明，我们提出的方法比不利用VLM进行探索或不校准其置信度的基线方法具有更好的性能和效率。实验视频和代码网页：https://explore-eqa.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文尝试解决基于视觉-语言模型的机器人探索问题中的两个挑战：缺乏内部记忆来映射场景以规划探索路径，以及模型置信度可能出现误差，导致机器人过早停止探索或过度探索。
关键思路

论文提出一种方法，首先利用深度信息和VLM的视觉提示构建场景的语义地图，利用其相关区域的广泛知识进行探索。然后使用符合性预测来校准VLM的问答置信度，使机器人知道何时停止探索，从而实现更加准确和高效的探索策略。
其它亮点

论文贡献了一个新的EQA数据集，其中包含多样化、真实的人-机器人场景和场景，基于Habitat-Matterport 3D研究数据集。实验结果表明，相比不利用VLM进行探索或不校准其置信度的基线，论文提出的方法在模拟和真实机器人实验中都能提高性能和效率。
相关研究

在这个领域中，最近的相关研究包括：Learning to Explore using Active Neural SLAM (CoRL 2020)、EmbodiedQA: Benchmarking Embodied Question Answering for Navigation (CVPR 2018)等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问