- 简介Vision-and-Language Navigation in Continuous Environments(VLN-CE)是最直观但也最具挑战性的具身人工智能任务之一。代理人需要执行一系列低级动作,按照一系列自然语言指令朝着目标目标前进。文献中的所有VLN-CE方法都假定语言指令是准确的。然而,在实践中,由于不准确的记忆或混淆,人类给出的指令可能会包含空间环境描述的错误。当前的VLN-CE基准没有解决这种情况,使得VLN-CE领域中的最新方法在面对来自人类用户的错误指令时变得脆弱。我们首次提出了一种新的基准数据集,引入了各种类型的指令错误,考虑到潜在的人类原因。这个基准提供了有关连续环境中VLN系统鲁棒性的有价值的见解。我们观察到,在我们的基准上评估最先进的VLN-CE方法时,成功率会明显下降(最高达-25%)。此外,我们正式定义了指令错误检测和定位任务,并在我们的基准数据集上建立了一个评估协议。我们还提出了一种有效的方法,基于跨模态变压器架构,与基线相比,在错误检测和定位方面取得了最佳表现。令人惊讶的是,我们提出的方法揭示了两个常用VLN-CE数据集(即R2R-CE和RxR-CE)的验证集中的错误,证明了我们技术在其他任务中的实用性。代码和数据集将在https://intelligolabs.github.io/R2RIE-CE获得接受后提供。
- 图表
- 解决问题研究如何让机器人在连续环境中能够理解并执行包含错误指令的自然语言导航任务
- 关键思路提出了一个新的基准数据集,包含各种类型的指令错误,旨在评估当前VLN-CE方法在面对人为导致的错误时的鲁棒性,并提出了一个基于跨模态Transformer架构的有效方法来检测和定位指令错误
- 其它亮点实验结果表明,当前VLN-CE方法在面对人为导致的错误时表现出明显的性能下降(高达-25%),提出的方法在错误检测和定位方面表现优异,甚至在常用数据集中发现了错误,数据集和代码将公开
- 最近的相关研究包括Vision-and-Language Navigation in Continuous Environments (VLN-CE)、R2R-CE和RxR-CE等
沙发等你来抢
去评论
评论
沙发等你来抢