- 简介RGB-T跟踪中,互补的RGB和TIR模态使得该方法在具有挑战性的场景下具有竞争力的表现。因此,如何更好地融合跨模态特征是RGB-T跟踪的核心问题。一些先前的方法要么不充分地融合RGB和TIR特征,要么依赖于包含来自两种模态信息的中间代理以实现跨模态信息交互。前者没有充分利用仅使用模板或搜索区域的RGB和TIR信息进行通道和空间特征融合的潜力,而后者缺乏模板和搜索区域之间的直接交互,这限制了模型充分利用两种模态的原始语义信息的能力。为了缓解这些限制,我们探索了如何通过直接融合跨模态通道和空间特征来改善视觉Transformer的性能,并提出了CSTNet。CSTNet使用ViT作为骨干网络,并插入了跨模态通道特征融合模块(CFM)和跨模态空间特征融合模块(SFM),以实现RGB和TIR特征之间的直接交互。CFM对RGB和TIR特征进行并行联合通道增强和联合多级空间特征建模,并对特征求和,然后将求和特征与原始特征进行全局集成。SFM使用交叉注意力来建模跨模态特征的空间关系,然后引入卷积前馈网络来联合空间和通道集成多模态特征。全面的实验表明,CSTNet在三个公共RGB-T跟踪基准上实现了最先进的性能。代码可在https://github.com/LiYunfengLYF/CSTNet上获得。
- 图表
- 解决问题本论文旨在解决RGB-T跟踪中RGB和TIR模态融合的问题,提出了一种直接融合跨模态通道和空间特征的方法。
- 关键思路该论文使用ViT作为骨干网络,并插入了跨模态通道特征融合模块(CFM)和跨模态空间特征融合模块(SFM),以实现RGB和TIR特征之间的直接交互。CFM对RGB和TIR特征进行并行通道增强和多级空间特征建模,并将特征相加,然后全局集成原始特征和相加特征。SFM使用跨注意力机制来建模跨模态特征的空间关系,然后引入卷积前馈网络来进行多模态特征的联合空间和通道集成。
- 其它亮点该论文在三个公共RGB-T跟踪基准测试中取得了最先进的性能。代码已经在GitHub上开源。
- 在RGB-T跟踪领域,最近的相关研究包括:'STEm-Siam: Short-Term Embodied Memory Siamese Trackers for RGB-T Tracking','Dual-Modality Object Tracking via Graph Learning','RGB-T Tracking via Joint Discriminative Feature Learning and Correlation Filter'等。
沙发等你来抢
去评论
评论
沙发等你来抢