Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

2024年10月09日
  • 简介
    开发能够根据语言指令和视觉信息导航到目标位置的智能体,也称为视觉语言导航(VLN),已经引起了广泛关注。大多数研究都集中在地面智能体上,而基于无人机的VLN研究相对较少。最近的无人机视觉语言导航研究主要采用地面VLN设置,依赖于预定义的离散动作空间,忽视了智能体运动动力学和地面和空中环境之间导航任务的固有差异和复杂性。为了解决这些差异和挑战,我们从平台、基准和方法三个方面提出了解决方案。为了在VLN任务中实现逼真的无人机轨迹模拟,我们提出了OpenUAV平台,该平台具有多样的环境、逼真的飞行控制和广泛的算法支持。我们在该平台上进一步构建了一个以目标为导向的VLN数据集,包括约12k条轨迹,是专门为逼真的无人机VLN任务设计的第一个数据集。为了解决复杂空中环境带来的挑战,我们提出了一个辅助指导的无人机物体搜索基准测试,称为UAV-Need-Help,它提供不同程度的指导信息,以帮助无人机更好地完成逼真的VLN任务。我们还提出了一种无人机导航MLLM,它可以根据多视图图像、任务描述和助手指令,利用MLLM的多模态理解能力共同处理视觉和文本信息,并执行分层轨迹生成。我们的方法的评估结果明显优于基线模型,但与人类操作员的结果仍存在相当大的差距,突显了UAV-Need-Help任务所面临的挑战。
  • 图表
  • 解决问题
    本文旨在解决基于语言指令和视觉信息进行无人机导航的问题,提出了一种名为OpenUAV的平台,构建了一个特定于无人机的VLN数据集,并提出了一种多模态深度学习模型来处理视觉和文本信息。
  • 关键思路
    本文提出了一种新的平台、数据集和多模态深度学习模型,以解决现有无人机视觉语言导航研究中存在的问题和挑战,包括运动动力学差异、复杂的空中环境和导航任务的复杂性。
  • 其它亮点
    本文提出的OpenUAV平台具有多样化的环境、真实的飞行控制和广泛的算法支持,构建的数据集包含约12k个轨迹,是第一个专门针对无人机的VLN数据集。作者提出了一个辅助引导的无人机目标搜索基准测试,称为UAV-Need-Help,提供不同级别的引导信息以帮助无人机更好地完成现实的VLN任务。作者提出的多模态深度学习模型可以同时处理视觉和文本信息,并执行分层轨迹生成,实验结果显著优于基线模型。
  • 相关研究
    近期的相关研究包括《Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论