- 简介多光谱定向目标检测面临着跨模态和内模态差异的挑战。最近的研究通常依赖于基于Transformer的模型来解决这些问题并实现跨模态融合检测。然而,Transformer的二次计算复杂度限制了它们的性能。受Mamba在长序列任务中高效和低复杂度的启发,我们提出了一种名为Disparity-guided Multispectral Mamba(DMM)的多光谱定向目标检测框架,由Disparity-guided Cross-modal Fusion Mamba(DCFM)模块、Multi-scale Target-aware Attention(MTA)模块和Target-Prior Aware(TPA)辅助任务组成。DCFM模块利用模态之间的视差信息自适应地合并RGB和IR图像的特征,缓解了跨模态冲突。MTA模块旨在通过聚焦RGB模态内的相关目标区域来增强特征表示,解决内模态变化。TPA辅助任务利用单模态标签来引导MTA模块的优化,确保其集中于目标及其局部上下文。在DroneVehicle和VEDAI数据集上进行的大量实验证明了我们方法的有效性,同时保持计算效率。代码将在https://github.com/Another-0/DMM 上提供。
-
- 图表
- 解决问题解决问题:论文旨在解决多光谱定向目标检测中的跨模态和内模态差异问题,提出了一种高效的解决方案。
- 关键思路关键思路:论文提出了Disparity-guided Multispectral Mamba(DMM)框架,包括Disparity-guided Cross-modal Fusion Mamba(DCFM)模块、Multi-scale Target-aware Attention(MTA)模块和Target-Prior Aware(TPA)辅助任务,通过利用视差信息、关注目标区域和单模标签优化等方法解决了多光谱定向目标检测中的问题。
- 其它亮点其他亮点:论文在DroneVehicle和VEDAI数据集上进行了大量实验,证明了DMM方法的有效性和高效性,超过了现有方法的性能,并且开源了代码。
- 相关研究:近期的相关研究包括:《Multi-Modal Fusion Transformer for End-to-End Autonomous Driving》、《Cross-modal Object Detection and Alignment via Unsupervised Consensus Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流