- 简介视觉-语言导航(VLN)旨在通过利用语言指令和视觉提示引导代理穿越环境,在具身人工智能中发挥着关键作用。室内 VLN 已经得到了广泛研究,而室外空中 VLN 仍然较少涉及。其潜在原因是室外空中视图涵盖广阔区域,使得数据收集更具挑战性,从而导致缺乏基准测试。为了解决这一问题,我们提出了 OpenFly,这是一个包含多功能工具链和大规模基准测试的空中 VLN 平台。首先,我们开发了一个高度自动化的工具链用于数据收集,实现了点云获取、场景语义分割、飞行轨迹创建和指令生成的自动化。其次,基于该工具链,我们构建了一个包含 10 万条轨迹的大规模空中 VLN 数据集,涵盖了 18 个场景中的不同高度和长度。相应的视觉数据使用了多种渲染引擎和技术生成,包括虚幻引擎、GTA V、Google Earth 和 3D 高斯点绘(3D GS),所有数据都表现出高质量的视觉效果。特别是,3D GS 支持从真实到模拟的渲染,进一步增强了数据集的真实感。第三,我们提出了 OpenFly-Agent,这是一种基于关键帧感知的 VLN 模型,它以语言指令、当前观察和历史关键帧作为输入,并直接输出飞行动作。我们进行了广泛的分析和实验,展示了我们 OpenFly 平台和 OpenFly-Agent 的优越性。工具链、数据集和代码将开源。
- 图表
- 解决问题该论文旨在解决室外空中视觉-语言导航(VLN)领域数据缺乏和基准不足的问题。与室内环境不同,室外空中的广阔视野使得数据收集变得极为困难,从而阻碍了这一领域的研究进展。
- 关键思路论文提出了一种名为OpenFly的平台,包括一个高度自动化的工具链和大规模的基准数据集,用于支持空中VLN的研究。关键思路在于开发自动化工具链以简化数据收集过程,并生成涵盖多样化场景的大规模高质量数据集。此外,提出了一个基于关键帧感知的VLN模型(OpenFly-Agent),它能够根据语言指令、当前观察和历史关键帧输出飞行动作。
- 其它亮点亮点包括:1) 自动化工具链实现了点云获取、场景语义分割、飞行轨迹创建和指令生成的自动化;2) 构建了一个包含10万条轨迹的大型数据集,覆盖18个不同的场景;3) 使用多种渲染引擎和技术生成视觉数据,特别是3D Gaussian Splatting技术增强了数据的真实感;4) 提出的OpenFly-Agent模型考虑了历史信息,提高了导航精度;5) 所有工具、数据集和代码将开源,促进未来研究。
- 最近的相关研究包括《Vision-and-Language Navigation in Realistic Indoor Environments》、《Learning to Navigate Unseen Environments with Multi-modal Fusion》等。这些研究主要集中在室内环境中,而本文则专注于室外空中导航,填补了这一领域的空白。其他相关工作还包括《Aerial Image-Based Localization and Mapping for Autonomous UAVs》以及《Semantic Segmentation for Aerial Imagery Using Deep Learning》等,但它们并未涉及通过视觉-语言指令进行导航的问题。
沙发等你来抢
去评论
评论
沙发等你来抢