MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection

2024年03月04日
  • 简介
    由于基本模型的发展,红外小目标检测算法已经取得了显著进展。具体而言,将卷积网络与Transformer相结合的结构可以很好地提取局部和全局特征。同时,它们也继承了基本模型的缺陷,例如Transformer的二次计算复杂度影响了效率。受最近具有线性复杂度的用于长距离建模的基本模型Mamba的启发,本文探讨了该状态空间模型在ISTD中的潜力。然而,直接应用是不合适的,因为对于检测小目标至关重要的局部特征不能被充分利用。相反,我们为高效的ISTD量身定制了一种Mamba-in-Mamba(MiM-ISTD)结构。例如,我们将局部补丁视为“视觉句子”,并将其进一步分解为“视觉单词”以进一步探索局部性。在给定视觉句子中的每个单词之间的交互将以可忽略的计算成本计算。通过聚合单词和句子特征,MiM-ISTD的表示能力可以显著增强。在NUAA-SIRST和IRSTD-1k上的实验证明了我们方法的优越准确性和效率。具体而言,MiM-ISTD比SOTA快10倍,在推断过程中每个2048×2048图像的GPU内存使用减少了73.4%,克服了在高分辨率红外图像上执行基于Mamba的理解的计算和内存限制。源代码可在https://github.com/txchen-USTC/MiM-ISTD上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决红外小目标检测算法中传统模型的缺陷,即变压器的二次计算复杂度影响效率的问题,并提出一种基于Mamba模型的MiM-ISTD结构以提高算法的效率和准确性。
  • 关键思路
    论文提出了一种基于Mamba模型的MiM-ISTD结构,通过将局部特征视为“视觉句子”并将其进一步分解为“视觉单词”,计算给定视觉句子中每个单词之间的交互,从而在保证局部特征的充分利用的同时,提高了算法的表示能力和效率。
  • 其它亮点
    MiM-ISTD结构比当前最先进的算法快10倍,而且在推理过程中每个2048 x 2048像素图像的GPU内存使用量降低了73.4%。实验使用NUAA-SIRST和IRSTD-1k数据集进行测试,结果证明MiM-ISTD具有卓越的准确性和效率。此外,论文提供了开源代码。
  • 相关研究
    最近的相关研究包括使用卷积神经网络和变压器结构的ISTD算法,如RetinaNet-Transformer和SANet,以及基于Mamba模型的其他应用,如Mamba-Net和Mamba-FPN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问