- 简介本文介绍了WaterVG,这是第一个为基于人类意图的USV水道感知设计的视觉基础数据集。WaterVG包括描述多个目标的提示,以及在实例级别上包括边界框和掩码的注释。特别地,WaterVG包括11,568个样本和34,950个引用目标,可以集成由单目相机和毫米波雷达捕获的视觉和雷达特征,从而实现更细粒度的文本提示。此外,本文提出了一种新颖的多模态视觉基础模型Potamoi,它是基于一阶段范式的多模态和多任务模型,具有设计的分阶段异构模态融合(PHMF)结构,包括自适应雷达加权(ARW)和多头瘦交叉注意力(MHSCA)。具体而言,MHSCA是一个低成本和高效的融合模块,具有极小的参数计数和FLOPs,可以优雅地对齐和融合两个传感器捕获的情境上下文信息和语言特征,从而有效地解决了基于细粒度提示的指称表达理解和分割任务。在WaterVG上进行了全面的实验和评估,其中我们的Potamoi相对于同类产品实现了最先进的性能。
- 图表
- 解决问题本文旨在解决无人船在水域中的自主导航和操作中,基于人类意图的水路感知问题。
- 关键思路本文提出了WaterVG数据集和Potamoi模型。WaterVG是第一个为基于无人船的水路感知而设计的视觉 grounding 数据集,包括多个目标的提示和实例级别的注释。Potamoi是一种多模态和多任务模型,基于一阶段范式,采用设计的分阶段异构模态融合结构,包括自适应雷达加权和多头瘦交叉注意力机制,能够有效地处理基于细粒度提示的指代表达理解和分割任务。
- 其它亮点本文提出了WaterVG数据集和Potamoi模型,Potamoi模型在WaterVG数据集上表现出了领先的性能。实验使用了monocular camera和毫米波雷达捕捉的视觉和雷达特征。Potamoi模型采用了低成本和高效的融合模块,能够有效地处理多模态任务。
- 在这个领域中,最近的相关研究包括:《Visual Grounding of Referring Expressions: A Survey》、《A Survey of Autonomous Underwater Vehicle Navigation Techniques》等。
沙发等你来抢
去评论
评论
沙发等你来抢