S-EQA: Tackling Situational Queries in Embodied Question Answering

2024年05月08日
  • 简介
    本文提出并解决了家庭环境下具有情境查询的体验问答(EQA)问题(S-EQA)。与之前处理直接涉及目标对象和相关可量化属性的简单查询的EQA工作不同,具有情境查询的EQA(例如“浴室干净吗?”)更具挑战性,因为代理需要弄清楚不仅涉及查询的目标对象是什么,还需要对它们的状态达成共识才能回答。为了实现这个目标,我们首先引入了一种新的Prompt-Generate-Evaluate(PGE)方案,它包装了LLM的输出以创建一个独特的情境查询数据集,对应共识对象信息和预测答案。PGE使用多种形式的语义相似性来保持生成的查询的独特性。我们通过在M-Turk上进行的大规模用户研究验证了生成的数据集,并将其作为S-EQA介绍,这是处理具有情境查询的EQA的第一个数据集。我们的用户研究证实了S-EQA的真实性,97.26%的生成的查询被认为是可回答的,给定共识对象数据。相反,我们观察到LLM预测答案与人工评估答案之间的相关性较低,为46.2%,表明LLM在直接回答情境查询方面的能力较差,同时也证明了S-EQA在提供间接解决方案的人工验证共识方面的可用性。我们通过VirtualHome上的视觉问答(VQA)对S-EQA进行评估,该模拟器与其他模拟器不同,它包含具有可修改状态的几个对象,这些对象在修改后也在视觉上呈现不同,从而使我们能够为S-EQA设置定量基准。据我们所知,这是第一篇介绍具有情境查询的EQA的论文,也是第一篇使用生成方法进行查询创建的论文。
  • 图表
  • 解决问题
    本论文试图解决家庭环境下的具有情境查询的实体问答(EQA)问题,这是一个新问题。
  • 关键思路
    论文提出了一种新的Prompt-Generate-Evaluate(PGE)方案,用于创建包含独特情境查询、相关共识对象信息和预测答案的数据集。该方案通过多种语义相似性维护生成的查询的唯一性。在虚拟家庭环境中,通过视觉问答(VQA)评估该数据集,建立了S-EQA作为解决EQA问题的可行性。
  • 其它亮点
    论文使用大规模用户研究验证了生成的数据集的真实性,S-EQA是第一个解决具有情境查询的EQA问题的数据集。实验使用了VirtualHome数据集进行评估,并建立了量化基准。
  • 相关研究
    最近的相关研究包括Embodied Question Answering (EQA)和Visual Question Answering (VQA)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问