PM-VIS: High-Performance Box-Supervised Video Instance Segmentation

2024年04月22日
  • 简介
    在视频中为像素级目标标注对象掩码是一项资源密集型和繁琐的过程。盒子监督的视频实例分割(VIS)方法已经成为缓解劳动密集型注释过程的可行解决方案。在实际应用中,两步法不仅更加灵活,而且表现出更高的识别精度。受到Segment Anything Model(SAM)最近的成功启发,我们引入了一种新的方法,旨在从多个角度利用实例框注释生成高质量的实例伪掩码,从而丰富实例注释中包含的信息。我们利用地面真实框分别使用HQ-SAM模型、盒子监督VIS模型(IDOL-BoxInst)和VOS模型(DeAOT)创建三种类型的伪掩码,以及三种相应的优化机制。此外,我们引入了两种地面真实数据过滤方法,通过高质量的伪掩码协助,进一步提高训练数据集的质量,改善完全监督的VIS方法的性能。为了充分利用所获得的高质量伪掩码,我们引入了一种新算法PM-VIS,将掩码损失整合到IDOL-BoxInst中。我们的PM-VIS模型使用高质量伪掩码注释进行训练,在实例掩码预测方面表现出强大的能力,在YouTube-VIS 2019、YouTube-VIS 2021和OVIS验证集上取得了最先进的性能,显著缩小了盒子监督和完全监督VIS方法之间的差距。
  • 图表
  • 解决问题
    本论文旨在解决视频中像素级对象掩码的标注过程耗时耗力的问题,提出了一种利用实例框注释生成高质量实例伪掩码的方法,并将其应用于视频实例分割任务中。
  • 关键思路
    该论文提出了一种新的方法,利用多个角度的实例框注释生成高质量的实例伪掩码,并结合优化机制和两种数据过滤方法来提高训练数据集的质量。同时,该论文还提出了一种PM-VIS算法,将伪掩码损失融入到IDOL-BoxInst中,从而实现更准确的实例分割。
  • 其它亮点
    该论文的实验结果表明,该方法在YouTube-VIS 2019、YouTube-VIS 2021和OVIS验证集上均取得了最先进的性能,极大地缩小了盒式监督和完全监督方法之间的差距。此外,该论文还提供了开源代码和使用的数据集。
  • 相关研究
    该领域的相关研究包括:1)MaskTrack R-CNN:基于R-CNN的视频实例分割方法;2)DyeNet:一种使用预测的实例分割结果进行视频对象分割的方法;3)STM:一种可变形空间-时间注意力机制的视频实例分割方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论