- 简介本文介绍了交互式视频对象分割,这是一个非常重要的视频任务,具有从视频编辑到数据注释的各种应用。然而,当前的方法在不同领域中准确分割对象仍然存在困难。最近,Segment Anything Model(SAM)引入了交互式视觉提示,并在不同领域展现出了令人印象深刻的性能。本文提出了一个无需训练的提示跟踪框架,用于交互式视频对象分割(I-PT),利用了SAM强大的泛化能力。虽然点跟踪可以高效地捕捉视频中对象的像素级信息,但是点在长时间跟踪后往往不稳定,导致分割不正确。为了实现快速且稳健的交互,我们同时采用稀疏点和框跟踪,过滤掉不稳定的点并捕捉对象级信息。为了更好地整合来自多次交互的参考信息,我们引入了跨轮空时模块(CRSTM),自适应地聚合先前轮次和帧的掩码特征,增强了分割的稳定性。我们的框架在包括DAVIS 2017、YouTube-VOS 2018和MOSE 2023在内的交互类型的流行VOS数据集上展示了稳健的零样本视频分割结果,保持了性能和交互时间之间的良好平衡。
-
- 图表
- 解决问题论文的问题是如何解决交互式视频对象分割中的精确性和稳定性问题,以及如何更好地整合多次交互的参考信息。
- 关键思路论文提出了一个基于SAM的无需训练的提示跟踪框架,利用稀疏点和框跟踪来过滤不稳定的点并捕获对象信息,并引入了交叉轮空间时间模块(CRSTM)来自适应地聚合先前轮次和帧的掩码特征,以提高分割稳定性。
- 其它亮点论文的实验结果表明,该框架在DAVIS 2017、YouTube-VOS 2018和MOSE 2023等数据集上表现出了鲁棒的零-shot视频分割结果,同时保持了性能和交互时间之间的良好平衡。
- 最近的相关研究包括:基于深度学习的视频对象分割方法,如OSVOS、OnAVOS、MSK、Lucid等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流