- 简介视觉语言导航(VLN)可以使代理根据自然语言指令在3D环境中导航到远程位置。在这个领域中,代理通常在导航模拟器中进行训练和评估,缺乏有效的模拟到真实环境的转换方法。仅具有单目摄像头的VLN代理表现极其有限,而使用全景观察训练的主流VLN模型表现更好,但难以部署到大多数单目机器人上。针对这种情况,我们提出了一种模拟到真实环境的转换方法,使单目机器人具备全景遍历感知和全景语义理解,从而将高性能的全景VLN模型顺利转移到常见的单目机器人上。在这项工作中,我们提出了语义可遍历地图来预测代理中心的可导航航点,并通过3D特征场预测这些可导航航点的新型视图表示。这些方法扩大了单目机器人的有限视野,并显著提高了在真实世界中的导航性能。我们的VLN系统在模拟环境中的R2R-CE和RxR-CE基准测试中优于先前的SOTA单目VLN方法,并在真实环境中得到验证,为真实世界的VLN提供了实用和高性能的解决方案。
- 图表
- 解决问题本论文旨在解决自然语言导航中单目摄像头的限制问题,提出一种将全景观察转移到单目机器人上的方法,以提高机器人在真实环境中的导航性能。
- 关键思路本文提出了一种将全景观察和语义理解转移到单目机器人上的方法,包括语义可行驶区域地图和3D特征场预测导航点的视角表示。
- 其它亮点本文的方法在R2R-CE和RxR-CE基准测试中优于之前的单目自然语言导航方法,并在真实环境中进行了验证。该方法为单目机器人提供了全景感知和语义理解,为实现真实世界的自然语言导航提供了高性能解决方案。
- 最近的相关研究包括:《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters》等。
沙发等你来抢
去评论
评论
沙发等你来抢