- 简介视频对象分割(VOS)任务旨在分割视频中的对象。然而,以前的设置要么需要在推断期间第一帧手动标记目标对象的耗时掩码,要么缺乏指定任意感兴趣对象的灵活性。为了解决这些限制,我们提出了称为点击视频对象分割(ClickVOS)的设置,该设置根据第一帧中每个对象的单击,在整个视频中分割感兴趣的对象。我们提供了扩展数据集DAVIS-P和YouTubeVOSP,其中包含点注释以支持此任务。ClickVOS由于只需要1-2秒的交互时间来指示对象,因此具有重要的实际应用和研究意义,而标注对象的掩码需要数分钟。然而,ClickVOS也提出了增加的挑战。为了解决这个任务,我们提出了一种名为Attention Before Segmentation(ABS)的端到端基线方法,受人类注意过程的启发。ABS利用第一帧中给定的点通过简明而有效的分割注意力来感知目标对象。虽然初始对象掩码可能不准确,但在我们的ABS中,随着视频的进行,最初不精确的对象掩码可以自我修复,而不是由于误差积累而恶化,这归因于我们设计的改进内存,它不断记录稳定的全局对象记忆并更新详细的密集记忆。此外,我们进行了各种基线探索,利用相关领域的现成算法,这可以为进一步探索ClickVOS提供见解。实验结果证明了所提出的ABS方法的优越性。扩展数据集和代码将在https://github.com/PinxueGuo/ClickVOS上提供。
- 图表
- 解决问题ClickVOS试图解决视频对象分割中需要耗费大量时间手动标注的问题,提出只需在第一帧中点击一次即可进行整个视频的对象分割。
- 关键思路ClickVOS提出了一种新的视频对象分割方法,利用第一帧中的点击信息,通过注意力机制实现对目标对象的感知,并利用改进的记忆机制进行自我修复,从而实现整个视频的对象分割。
- 其它亮点论文提出的ClickVOS方法具有实际应用和研究意义,只需要1-2秒的交互时间即可完成对象标注,而不需要几分钟的手动标注,同时论文提出的ABS方法在实验中表现出较好的性能。论文还提供了扩展数据集DAVIS-P和YouTubeVOSP以支持该任务,并且开源了代码。
- 在视频对象分割领域,最近的相关研究包括《Fast Video Object Segmentation by Reference-Guided Mask Propagation》、《Video Object Segmentation with Re-identification》等。
沙发等你来抢
去评论
评论
沙发等你来抢