Explore until Confident: Efficient Exploration for Embodied Question Answering

2024年03月23日
  • 简介
    本文考虑了“具身问答”(EQA)问题,即指代机器人等具身智能体需要主动探索环境以收集信息,直到对问题的答案有信心的情境。本文利用大型视觉语言模型(VLMs)强大的语义推理能力来高效探索和回答此类问题。然而,在EQA中使用VLMs存在两个主要挑战:它们没有内部记忆来映射场景以能够规划随时间的探索,而且它们的置信度可能被错误地校准,导致机器人过早停止探索或过度探索。为此,本文提出了一种方法,首先基于深度信息和VLM的视觉提示构建场景的语义地图,利用其对场景相关区域的广泛知识进行探索。接下来,我们使用符合性预测来校准VLM的问题回答置信度,使机器人知道何时停止探索,从而实现更加准确和高效的探索策略。为了在仿真中测试我们的框架,我们还贡献了一个新的EQA数据集,其中包含多样化、逼真的人机场景和基于Habitat-Matterport 3D研究数据集(HM3D)的场景。仿真和真实机器人实验表明,我们提出的方法比不利用VLM进行探索或不校准其置信度的基线方法具有更好的性能和效率。实验视频和代码网页:https://explore-eqa.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    本论文尝试解决基于视觉-语言模型的机器人探索问题中的两个挑战:缺乏内部记忆来映射场景以规划探索路径,以及模型置信度可能出现误差,导致机器人过早停止探索或过度探索。
  • 关键思路
    论文提出一种方法,首先利用深度信息和VLM的视觉提示构建场景的语义地图,利用其相关区域的广泛知识进行探索。然后使用符合性预测来校准VLM的问答置信度,使机器人知道何时停止探索,从而实现更加准确和高效的探索策略。
  • 其它亮点
    论文贡献了一个新的EQA数据集,其中包含多样化、真实的人-机器人场景和场景,基于Habitat-Matterport 3D研究数据集。实验结果表明,相比不利用VLM进行探索或不校准其置信度的基线,论文提出的方法在模拟和真实机器人实验中都能提高性能和效率。
  • 相关研究
    在这个领域中,最近的相关研究包括:Learning to Explore using Active Neural SLAM (CoRL 2020)、EmbodiedQA: Benchmarking Embodied Question Answering for Navigation (CVPR 2018)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问