- 简介多模态语义分割极大地增强了AI代理的感知和场景理解能力,特别是在低光或过度曝光等恶劣条件下。利用额外的模态(X模态),如热和深度,以及传统的RGB,提供了补充信息,使分割更加健壮和可靠。在这项工作中,我们介绍了Sigma,一种用于多模态语义分割的Siamese Mamba网络,利用选择性结构状态空间模型Mamba。与依赖于CNN的传统方法不同,CNN具有有限的局部接受域,或者视觉Transformer(ViTs)具有全局接受域,但代价是二次复杂度,我们的模型通过使用Siamese编码器和创新的Mamba融合机制,有效地从不同模态中选择关键信息。然后开发了一个解码器来增强模型的通道建模能力。我们的方法Sigma在RGB-热和RGB-深度分割任务上进行了严格评估,证明了其优越性,并标志着状态空间模型(SSMs)在多模态感知任务中的首次成功应用。代码可在https://github.com/zifuwan/Sigma上获得。
- 图表
- 解决问题本论文旨在解决多模态语义分割中的困难问题,即在低光或过度曝光等恶劣条件下,通过利用额外的模态(X模态)如热量和深度,提高AI代理的感知和场景理解能力。
- 关键思路论文提出了一种名为Sigma的Siamese Mamba网络,利用选择性结构状态空间模型Mamba进行多模态语义分割。该模型通过使用Siamese编码器和创新的Mamba融合机制,从不同的模态中有效地选择重要信息,从而实现了线性复杂度下的全局感受野覆盖。
- 其它亮点论文在RGB-Thermal和RGB-Depth分割任务上对Sigma进行了严格评估,证明了其优越性,并标志着状态空间模型(SSMs)在多模态感知任务中的首次成功应用。同时,作者还提供了代码开源。
- 近期在这个领域中的相关研究包括:1.《Multi-modal Semantic Segmentation with High-order Fusion and Curriculum Learning》2.《Multi-modal Semantic Segmentation via Multi-scale Feature Fusion and Task-specific Network Design》
沙发等你来抢
去评论
评论
沙发等你来抢