Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces

简介

卷积神经网络(CNNs)和Transformer已经在某些条件下显示出在裂缝检测方面的高精度。然而，固定的局部注意力会影响CNNs的泛化能力，全局自注意力的二次复杂度也限制了Transformer的实际部署。鉴于新一代Mamba架构的出现，本文提出了一种基于Vision Mamba (VMamba)的框架，用于在混凝土、沥青和砖石表面进行裂缝分割，具有高精度、泛化性和较少的计算复杂度。与代表性的基于CNN的模型相比，集成了VMamba的编码器-解码器网络可以获得高达2.8%的更高mDS，同时显示出与基于Transformer的模型大致相同的性能，且参数少15.6% - 74.5%。此外，基于VMamba的编码器-解码器网络可以使用高分辨率图像输入进行处理，其浮点运算量可以降低高达90.6%。
图表
解决问题

提出了一种基于Mamba架构的视觉框架，用于在混凝土、沥青和砖石表面上进行裂缝分割，具有高精度、泛化性和较少的计算复杂度。
关键思路

将VMamba与编码器-解码器网络集成，可以获得比代表CNN模型高达2.8％的更高mDS，同时显示与基于Transformer的模型大致相同的性能。此外，基于VMamba的编码器-解码器网络可以使用高达90.6％较少的浮点运算处理高分辨率图像输入。
其它亮点

通过使用VMamba架构，论文提出了一种新的方法来解决混凝土、沥青和砖石表面上的裂缝分割问题。实验结果表明，该方法在精度、泛化性和计算效率方面都优于以前的方法。论文还提供了开源代码和使用的数据集。
相关研究

最近的相关研究包括使用CNN和Transformer进行裂缝检测的研究，如“基于深度学习的混凝土表面裂缝检测方法研究”和“Transformer在混凝土表面裂缝检测中的应用研究”。

Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces

评论