ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection

International Journal of Computer Vision (2024)
2024年06月18日
  • 简介
    随着深度传感器的快速发展,越来越多的RGB-D视频可以被获取。在RGB-D视频中识别前景是一项基础且重要的任务。然而,现有的显著性目标检测(SOD)仅关注静态RGB-D图像或RGB视频,忽略了RGB-D和视频信息的协作。在本文中,我们首先收集了一个新的注释的RGB-D视频SOD(ViDSOD-100)数据集,其中包含100个视频,共计9362帧,采集自不同的自然场景。每个视频中的所有帧都手动注释为高质量的显著性注释。此外,我们提出了一个名为注意力三重融合网络(ATF-Net)的新的基准模型,用于RGB-D视频显著性目标检测。我们的方法通过设计三个模态特定分支和一个多模态集成分支,从输入RGB图像提取外观信息,从估计的运动图提取时空信息,以及从深度图提取几何信息。模态特定分支提取不同输入的表示,而多模态集成分支通过引入编码器特征聚合(MEA)模块和解码器特征聚合(MDA)模块,结合多级模态特定特征。在我们新引入的ViDSOD-100数据集和已经建立的DAVSOD数据集上进行的实验结果表明,所提出的ATF-Net具有卓越的性能。这种性能提升在定量和定性方面都得到了证明,超过了目前各个领域的最先进技术的能力,包括RGB-D显著性检测、视频显著性检测和视频对象分割。我们的数据和代码可在github.com/jhl-Det/RGBD_Video_SOD上获得。
  • 图表
  • 解决问题
    本文旨在解决RGB-D视频中的显著性目标检测问题,提出了一个新的基于RGB-D视频的显著性目标检测数据集,并且构建了一个新的基线模型。
  • 关键思路
    本文提出了一种新的基于RGB-D视频的显著性目标检测模型——ATF-Net,该模型通过三个模态特定分支和一个多模态集成分支,将输入的RGB图像、估计的运动图和深度图的几何信息进行融合,实现了多层次的特征提取和融合。
  • 其它亮点
    本文提出了一个新的基于RGB-D视频的显著性目标检测数据集(ViDSOD-100),并且构建了一个新的基线模型(ATF-Net)。实验结果表明,ATF-Net在ViDSOD-100和DAVSOD数据集上均取得了优异的性能。该研究的数据和代码都已经在github上开源。
  • 相关研究
    近期的相关研究包括:1)RGB-D显著性检测;2)视频显著性检测;3)视频对象分割。其中一些相关论文包括:《RGB-D Salient Object Detection: A Survey》、《Video Object Segmentation Using Space-Time Memory Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论