Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

2024年06月27日
  • 简介
    Vision-and-Language Navigation (VLN) 旨在开发能够根据人类指令进行导航的具身代理。然而,目前的 VLN 框架通常依赖于静态环境和最佳专家监督,限制了它们在真实世界中的适用性。为了解决这个问题,我们引入了人类感知视觉语言导航 (HA-VLN),通过整合动态人类活动和放宽关键假设来扩展传统的 VLN。我们提出了 Human-Aware 3D (HA3D) 模拟器,将动态人类活动与 Matterport3D 数据集相结合,以及 Human-Aware Room-to-Room (HA-R2R) 数据集,通过人类活动描述扩展了 R2R。为了解决 HA-VLN 的挑战,我们提出了 Expert-Supervised Cross-Modal (VLN-CM) 和 Non-Expert-Supervised Decision Transformer (VLN-DT) 代理,利用跨模态融合和多样化的训练策略,在动态人类环境中进行有效的导航。对 HA-VLN 的全面评估,包括考虑人类活动的度量和对 HA-VLN 独特挑战的系统分析,强调了需要进一步研究以增强 HA-VLN 代理的真实世界鲁棒性和适应性。最终,这项工作为未来关于具身 AI 和 Sim2Real 转移的研究提供了基准和见解,为在人口密集的环境中更加现实和适用的 VLN 系统铺平了道路。
  • 图表
  • 解决问题
    本文旨在解决现有的视觉语言导航(VLN)框架在应用于动态人类环境时存在的问题,提出了一种人类感知的VLN(HA-VLN)框架,旨在扩展传统的VLN框架,使其能够处理动态人类活动和放松关键假设。
  • 关键思路
    本文提出了一种基于动态人类活动和Matterport3D数据集的Human-Aware 3D(HA3D)模拟器和Human-Aware Room-to-Room(HA-R2R)数据集,用于扩展R2R数据集并增加人类活动描述。此外,本文还提出了Expert-Supervised Cross-Modal(VLN-CM)和Non-Expert-Supervised Decision Transformer(VLN-DT)代理,利用跨模态融合和多样化的训练策略来有效地处理动态人类环境下的导航问题。
  • 其它亮点
    本文的亮点包括提出了HA-VLN框架,扩展了现有的VLN框架,使其能够处理动态人类活动和放松关键假设;提出了HA3D模拟器和HA-R2R数据集,用于评估HA-VLN代理的性能;提出了VLN-CM和VLN-DT代理,利用跨模态融合和多样化的训练策略来有效地处理动态人类环境下的导航问题。实验使用了Matterport3D和HA-R2R数据集,并对HA-VLN代理的性能进行了全面评估,包括考虑人类活动的度量标准和HA-VLN独特挑战的系统分析。本文为未来的体验智能和Sim2Real转移研究提供了基准和见解,为人类活动环境中更现实和适用的VLN系统铺平了道路。
  • 相关研究
    最近的相关研究包括《Learning to Navigate in Cities Without a Map》、《Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论