- 简介为了实现理想的显著性预测,在许多实际应用中,显著物体检测(SOD)算法的输入类型和数量可能会动态改变。然而,现有的SOD算法主要设计或训练用于一种特定类型的输入,不能推广到其他类型的输入。因此,需要预先准备更多类型的SOD算法以处理不同类型的输入,这将带来巨大的硬件和研究成本。不同的是,在本文中,我们提出了一种新类型的SOD任务,称为任意模态SOD(AM SOD)。AM SOD最突出的特点是模态类型和模态数量将是任意或动态变化的。前者意味着AM SOD算法的输入可以是任意模态,如RGB、深度甚至任何它们的组合。而后者则表示随着输入类型的变化,输入可能具有任意数量的模态,例如单模态RGB图像、双模态RGB-深度(RGB-D)图像或三模态RGB-深度-热(RGB-D-T)图像。因此,本文提出了一种初步解决上述挑战的解决方案,即模态切换网络(MSN)。具体来说,首先设计了一种模态切换特征提取器(MSFE),通过引入一些模态指示器有效地从每个模态中提取判别特征,这将为模态切换生成一些权重。随后,提出了一种动态融合模块(DFM),根据一种新颖的Transformer结构自适应地融合来自可变数量的模态的特征。最后,构建了一个名为AM-XD的新数据集,以促进对AM SOD的研究。大量实验证明,我们的AM SOD方法可以有效地应对输入模态类型和数量的变化,实现强大的显著物体检测。
- 图表
- 解决问题解决问题:论文提出了一种新型的显著性目标检测(SOD)任务,即任意模态SOD(AM SOD),旨在解决现有SOD算法只能处理特定类型输入的问题。
- 关键思路关键思路:论文提出了一种模态切换网络(MSN),包括模态切换特征提取器(MSFE)和动态融合模块(DFM),可以自适应地处理任意类型和数量的输入模态。
- 其它亮点其他亮点:论文构建了一个新的数据集AM-XD来支持AM SOD的研究,实验结果表明该方法能够有效地处理输入模态的变化并实现鲁棒的显著性目标检测。
- 相关研究:最近的相关研究包括“基于多模态深度学习的显著性目标检测”和“基于注意力机制的显著性目标检测”。
沙发等你来抢
去评论
评论
沙发等你来抢