- 简介RGB-D显著物体检测(SOD)旨在通过联合建模RGB和深度信息来突出给定场景中的显著区域,是具有挑战性的像素级预测任务之一。近年来,由于双注意力机制能够增强检测过程,因此在这一领域得到了广泛应用。然而,大多数现有方法直接在手动强制融合范式下融合跨模态的注意力特征,而没有考虑RGB和深度信息之间的固有差异,这可能导致性能下降。此外,由全局和局部信息衍生的长距离依赖性使得难以采用统一且高效的融合策略。因此,在本文中,我们提出了一种新的具有全局-局部意识的双互学习网络GL-DMNet。具体来说,我们引入了位置互融合模块和通道互融合模块,以挖掘不同模态在空间和通道维度上的相互依赖关系。此外,我们采用了一个基于级联变换器注入重建的高效解码器,以联合整合多层次的融合特征。在六个基准数据集上的广泛实验表明,我们提出的GL-DMNet优于24种RGB-D SOD方法,在四个评估指标上相比第二佳模型(S3Net)平均提升了约3%。代码和结果可在https://github.com/kingkung2016/GL-DMNet获取。
-
- 图表
- 解决问题该论文旨在解决RGB-D显著性物体检测(SOD)中的挑战,特别是在融合RGB和深度信息时存在的模态差异问题。现有的方法通常直接融合跨模态特征,但未充分考虑RGB和深度信息之间的固有差异,这可能导致性能下降。此外,如何有效整合全局和局部信息也是一个难题。
- 关键思路论文提出了一种新颖的双互学习网络GL-DMNet,该网络具有全局-局部意识。具体来说,作者引入了位置互融模块和通道互融模块,以在空间和通道维度上挖掘不同模态之间的相互依赖关系。此外,还采用了一个基于级联变换器注入重建的高效解码器,用于联合集成多级融合特征。这种方法不仅考虑了RGB和深度信息的差异,还通过全局和局部信息的有效结合提升了检测性能。
- 其它亮点1. GL-DMNet在六个基准数据集上的表现优于24种RGB-D SOD方法,在四个评估指标上平均提高了约3%。 2. 论文提出了位置互融模块和通道互融模块,分别处理空间和通道维度上的跨模态特征融合。 3. 使用了高效的解码器,能够更好地整合多层级的融合特征。 4. 提供了开源代码和实验结果,方便后续研究者复现和改进。 5. 实验设计详尽,涵盖了多个基准数据集,验证了模型的鲁棒性和泛化能力。
- 近期在这个领域中,相关的研究包括但不限于: 1. 'Dual Attention Network for Scene Segmentation' - 探讨了双注意力机制在场景分割中的应用。 2. 'Cross-modal Attention for RGB-D Salient Object Detection' - 研究了跨模态注意力机制在RGB-D显著性检测中的作用。 3. 'Learning to Fuse Features in RGB-D Salient Object Detection via Recurrent Attention' - 提出了通过循环注意力机制进行特征融合的方法。 4. 'Deep Supervision for RGB-D Salient Object Detection' - 引入了深度监督机制来提升RGB-D显著性检测的效果。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流