摘要:视觉和语言导航 (VLN) 旨在使具体代理能够使用自然语言指令在现实环境中导航。鉴于特定领域训练数据的稀缺性以及图像和语言输入的高度多样性,将 VLN 代理推广到看不见的环境仍然具有挑战性。最近的方法探索了预训练以提高泛化能力,然而,使用通用图像字幕数据集或现有的小规模 VLN 环境是次优的,导致改进有限。在这项工作中,我们介绍了 BnB,这是一个大规模且多样化的域内 VLN 数据集。我们首先从在线租赁市场的数十万个列表中收集图像字幕 (IC) 对。使用 IC 对,我们接下来提出自动策略来生成数百万个 VLN 路径指令 (PI) 对。我们进一步提出了一种改组损失,以改善对 PI 对内的时间顺序的学习。我们使用 BnB 预训练我们的 Airbert 模型,该模型可以适应判别性和生成性设置,并表明它在房间到房间 (R2R) 导航和远程参考表达 (REVERIE) 基准测试方面优于最先进的技术。此外,我们的域内预训练显着提高了具有挑战性的小样本 VLN 评估的性能,其中我们仅根据来自几所房子的 VLN 指令训练模型。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢