RGB-Sonar Tracking Benchmark and Spatial Cross-Attention Transformer Tracker

2024年06月11日
  • 简介
    视觉相机和声纳在水下环境中具有天然的互补性。结合两种模态的信息将促进对水下目标的更好观察。然而,在先前的研究中,这个问题没有得到足够的关注。因此,本文介绍了一个新的具有挑战性的RGB-Sonar (RGB-S)跟踪任务,并研究了如何通过RGB和声纳模态的交互实现对水下目标的有效跟踪。具体而言,我们首先提出了一个包含50个序列和超过87000个高质量注释边界框的RGBS50基准数据集。实验结果表明,RGBS50基准对当前流行的SOT跟踪器构成了挑战。其次,我们提出了一种名为SCANet的RGB-S跟踪器,其中包括一个空间交叉注意力模块(SCAM),由一个新颖的空间交叉注意力层和两个独立的全局集成模块组成。空间交叉注意力用于克服RGB和声纳图像之间空间错位的问题。第三,我们提出了一种基于SOT数据的RGB-S模拟训练方法(SRST),以克服缺乏RGB-S训练数据集的问题。它将RGB图像转换为类似声纳的显着性图像,构建伪数据对,使模型能够学习RGB-S类似数据的语义结构。综合实验表明,所提出的空间交叉注意力有效地实现了RGB和声纳模态之间的交互,SCANet在所提出的基准测试中取得了最先进的性能。代码可在https://github.com/LiYunfengLYF/RGBS50上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决水下目标跟踪中RGB和声纳模态之间的互动问题,并提出了一个新的RGB-Sonar(RGB-S)跟踪任务。
  • 关键思路
    论文提出了一种名为SCANet的RGB-S跟踪器,其中包括一个空间交叉注意力模块(SCAM)和一种基于SOT数据的RGB-S模拟训练方法(SRST)。
  • 其它亮点
    论文提出了一个包含50个序列和超过87000个高质量注释边界框的RGBS50基准数据集,并展示了该数据集对当前流行的SOT跟踪器的挑战。SCANet通过空间交叉注意力有效地实现了RGB和声纳模态之间的互动,并在提出的基准测试中实现了最先进的性能。论文提供了开源代码。
  • 相关研究
    近期的相关研究包括:'Underwater Moving Object Detection and Tracking: A Survey','An Underwater Object Tracking Algorithm Based on Deep Learning in Video Data','A Survey of Underwater Object Tracking'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问