本文提出并解决了家庭环境下具有情境查询的体验问答(EQA)问题(S-EQA)。与之前处理直接涉及目标对象和相关可量化属性的简单查询的EQA工作不同,具有情境查询的EQA(例如“浴室干净吗?”)更具挑战性,因为代理需要弄清楚不仅涉及查询的目标对象是什么,还需要对它们的状态达成共识才能回答。为了实现这个目标,我们首先引入了一种新的Prompt-Generate-Evaluate(PGE)方案,它包装了LLM的输出以创建一个独特的情境查询数据集,对应共识对象信息和预测答案。PGE使用多种形式的语义相似性来保持生成的查询的独特性。我们通过在M-Turk上进行的大规模用户研究验证了生成的数据集,并将其作为S-EQA介绍,这是处理具有情境查询的EQA的第一个数据集。我们的用户研究证实了S-EQA的真实性,97.26%的生成的查询被认为是可回答的,给定共识对象数据。相反,我们观察到LLM预测答案与人工评估答案之间的相关性较低,为46.2%,表明LLM在直接回答情境查询方面的能力较差,同时也证明了S-EQA在提供间接解决方案的人工验证共识方面的可用性。我们通过VirtualHome上的视觉问答(VQA)对S-EQA进行评估,该模拟器与其他模拟器不同,它包含具有可修改状态的几个对象,这些对象在修改后也在视觉上呈现不同,从而使我们能够为S-EQA设置定量基准。据我们所知,这是第一篇介绍具有情境查询的EQA的论文,也是第一篇使用生成方法进行查询创建的论文。
提问交流