摘要:视觉和语言导航 (VLN) 旨在使具体代理能够使用自然语言指令在现实环境中导航。鉴于特定领域训练数据的稀缺性以及图像和语言输入的高度多样性,将 VLN 代理推广到看不见的环境仍然具有挑战性。最近的方法探索了预训练以提高泛化能力,然而,使用通用图像字幕数据集或现有的小规模 VLN 环境是次优的,导致改进有限。在这项工作中,我们介绍了 BnB,这是一个大规模且多样化的域内 VLN 数据集。我们首先从在线租赁市场的数十万个列表中收集图像字幕 (IC) 对。使用 IC 对,我们接下来提出自动策略来生成数百万个 VLN 路径指令 (PI) 对。我们进一步提出了一种改组损失,以改善对 PI 对内的时间顺序的学习。我们使用 BnB 预训练我们的 Airbert 模型,该模型可以适应判别性和生成性设置,并表明它在房间到房间 (R2R) 导航和远程参考表达 (REVERIE) 基准测试方面优于最先进的技术。此外,我们的域内预训练显着提高了具有挑战性的小样本 VLN 评估的性能,其中我们仅根据来自几所房子的 VLN 指令训练模型。

内容中包含的图片若涉及版权问题,请及时与我们联系删除