- 简介最近,由于基本模型的发展,红外小目标检测(ISTD)取得了显著进展。具体而言,将卷积网络与Transformer相结合的结构可以成功地提取局部和全局特征。然而,Transformer的缺点也被继承了,即与序列长度的平方成正比的计算复杂度。受最近具有线性复杂度的长距离建模的基本模型Mamba的启发,本文探讨了这种状态空间模型在ISTD任务中的潜力,以及其在效率和有效性方面的表现。然而,直接应用Mamba会导致性能下降,因为关键的局部特征无法充分利用。相反,我们为了实现高效的ISTD,设计了一个名为MiM-ISTD的Mamba-in-Mamba结构。具体而言,我们将局部图像块视为“视觉句子”,使用外部Mamba来探索全局信息。然后,我们将每个视觉句子分解为子块作为“视觉单词”,并使用内部Mamba来在视觉句子中的单词之间进一步探索局部信息,计算成本可以忽略不计。通过聚合单词和句子特征,MiM-ISTD可以有效地探索全局和局部信息。在NUAA-SIRST和IRSTD-1k上的实验表明,我们的方法具有优越的准确性和效率。具体而言,在测试2048×2048图像时,MiM-ISTD比SOTA方法快10倍,GPU内存使用减少了73.4%,克服了高分辨率红外图像的计算和内存限制。源代码可在https://github.com/txchen-USTC/MiM-ISTD 上获得。
-
- 图表
- 解决问题本论文旨在解决红外小目标检测(ISTD)中的计算和内存限制问题,提出了一种基于Mamba的MiM-ISTD结构,旨在有效地探索全局和局部信息。
- 关键思路MiM-ISTD结构将局部补丁视为“视觉句子”,使用外部Mamba探索全局信息,然后将每个视觉句子分解为“视觉词”,使用内部Mamba进一步探索视觉句子中单词之间的局部信息。通过聚合单词和句子特征,MiM-ISTD可以有效地探索全局和局部信息。
- 其它亮点实验表明,MiM-ISTD在NUAA-SIRST和IRSTD-1k数据集上具有优越的准确性和效率。与SOTA方法相比,MiM-ISTD在测试$2048 \times 2048$图像时快10倍,并将GPU内存使用量降低了73.4%,克服了高分辨率红外图像上的计算和内存限制。研究者提供了开源代码。
- 近期的相关研究包括使用卷积网络和transformers结构的ISTD模型以及具有线性复杂度的Mamba模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流