MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection

向作者提问

NEW

简介

最近，由于基本模型的发展，红外小目标检测（ISTD）取得了显著进展。具体而言，将卷积网络与Transformer相结合的结构可以成功地提取局部和全局特征。然而，Transformer的缺点也被继承了，即与序列长度的平方成正比的计算复杂度。受最近具有线性复杂度的长距离建模的基本模型Mamba的启发，本文探讨了这种状态空间模型在ISTD任务中的潜力，以及其在效率和有效性方面的表现。然而，直接应用Mamba会导致性能下降，因为关键的局部特征无法充分利用。相反，我们为了实现高效的ISTD，设计了一个名为MiM-ISTD的Mamba-in-Mamba结构。具体而言，我们将局部图像块视为“视觉句子”，使用外部Mamba来探索全局信息。然后，我们将每个视觉句子分解为子块作为“视觉单词”，并使用内部Mamba来在视觉句子中的单词之间进一步探索局部信息，计算成本可以忽略不计。通过聚合单词和句子特征，MiM-ISTD可以有效地探索全局和局部信息。在NUAA-SIRST和IRSTD-1k上的实验表明，我们的方法具有优越的准确性和效率。具体而言，在测试2048×2048图像时，MiM-ISTD比SOTA方法快10倍，GPU内存使用减少了73.4％，克服了高分辨率红外图像的计算和内存限制。源代码可在https://github.com/txchen-USTC/MiM-ISTD 上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决红外小目标检测（ISTD）中的计算和内存限制问题，提出了一种基于Mamba的MiM-ISTD结构，旨在有效地探索全局和局部信息。
关键思路

MiM-ISTD结构将局部补丁视为“视觉句子”，使用外部Mamba探索全局信息，然后将每个视觉句子分解为“视觉词”，使用内部Mamba进一步探索视觉句子中单词之间的局部信息。通过聚合单词和句子特征，MiM-ISTD可以有效地探索全局和局部信息。
其它亮点

实验表明，MiM-ISTD在NUAA-SIRST和IRSTD-1k数据集上具有优越的准确性和效率。与SOTA方法相比，MiM-ISTD在测试$2048 \times 2048$图像时快10倍，并将GPU内存使用量降低了73.4％，克服了高分辨率红外图像上的计算和内存限制。研究者提供了开源代码。
相关研究

近期的相关研究包括使用卷积网络和transformers结构的ISTD模型以及具有线性复杂度的Mamba模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问