DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation

2024年05月11日
  • 简介
    最近关于视频目标分割的研究通过匹配当前和前一帧之间的密集语义和实例级特征来实现长时间传播,取得了显著的成果。然而,全局特征匹配忽略了场景运动背景,未能满足时间上的一致性。尽管一些方法引入了本地匹配分支以实现平滑传播,但由于本地窗口的限制,它们无法对复杂的外观变化进行建模。本文提出了DeVOS(可变形VOS),这是一种用于视频目标分割的体系结构,它将基于记忆的匹配与运动引导传播相结合,从而实现稳定的长期建模和强大的时间一致性。对于短期本地传播,我们提出了一种新的注意机制ADVA(自适应可变形视频注意力),允许将相似性搜索区域适应于查询特定的语义特征,从而确保对复杂形状和尺度变化的稳健跟踪。DeVOS采用光流获取场景运动特征,这些特征进一步注入到可变形注意力中作为可学习偏移的强先验。我们的方法在DAVIS 2017 val和test-dev(88.1%,83.0%),YouTube-VOS 2019 val(86.6%)上实现了最高排名性能,同时具有一致的运行时间速度和稳定的内存消耗。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频对象分割中全局特征匹配忽略场景运动上下文导致时间一致性不足的问题,并提出一种新的架构DeVOS来实现稳定的长期建模和强时间一致性。
  • 关键思路
    DeVOS结合了基于记忆的匹配和运动引导传播,利用自适应可变形视频注意力机制实现了短期局部传播,同时注入光流来获取场景运动特征,并将其注入可变形注意力作为学习偏移的强先验。
  • 其它亮点
    DeVOS在DAVIS 2017 val和test-dev(88.1%,83.0%)以及YouTube-VOS 2019 val(86.6%)上实现了顶级性能,具有一致的运行时速度和稳定的内存消耗。实验设计合理,使用了多个数据集,并开源了代码。
  • 相关研究
    在视频对象分割领域,最近还进行了许多相关研究,例如《Fast Video Object Segmentation by Reference-Guided Mask Propagation》、《MaskProp: Segmenting Objects by Mask-Propagation with Intensity Guidance》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问