
论文地址:https://arxiv.org/pdf/2201.00487.pdf
开源地址:https://github.com/wjn922/ReferFormer
摘要
引用视频对象细分(R-VOS)是一项新兴的跨模式任务,旨在分割所有视频帧中语言表达式所引用的目标对象。在这项工作中,我们提出了一个基于变压器(称为Referformer)的简单而统一的框架。它将语言视为查询,并直接关注视频帧中最相关的区域。具体而言,我们引入了一组以语言为条件的对象查询,作为变压器的输入。以这种方式,所有查询都必须仅找到引用的对象。它们最终被转变为动态内核,这些内核捕获了关键的对象级信息,并扮演卷积过滤器以从特征地图生成分割掩码的角色。对象跟踪是通过链接跨帧的相应查询来自然实现的。这种机制大大简化了管道,终端框架与以前的方法显着不同。关于Ref-Youtube-Vos,Ref-Davis17,A2D-Sentences和JHMDB句子的广泛实验显示了推荐人的有效性。在Ref-Youtube-Vos上,RefureFormer在没有铃铛和哨声的Resnet-50骨架上实现了55.6 J&F,超过了先前的最先进性能8.4分。此外,借助强大的大型主链,Refureformer在所有现有方法中都达到了64.2的最佳J&F。此外,我们分别在A2D句子和JHMDB句子上显示了55.0 MAP和43.7 MAP的令人印象深刻的结果,这显着超过了先前的方法。

主要贡献
这项工作的主要贡献如下。
- 我们提出了一个简单而统一的框架,用于引用视频对象分割,称为Referformer。给定视频剪辑和相应的语言表达式,我们的框架直接以端到端的方式以所有框架来检测,段和跟踪所引用的对象。
- 我们将语言的概念作为查询。我们介绍了一组少量的对象查询,该查询以文本表达式为条件,仅参考对象。这些条件查询在初始状态下的不同帧共享,并将其转换为动态内核,以从特征地图中滤除分割掩码。这种机制为R-VOS任务提供了新的视角。
- 我们为多尺度视觉融合设计了跨模式特征金字塔网络(CM-FPN),从而提高了蒙版特征的歧视性以进行准确的分割。
- 关于Ref-Youtube-Vos,RefDAVIS17,A2D-Sentences和JHMDB-Sentences的广泛实验表明,Refureformer的表现优于这四个基准的先前方法,较大的边距。例如,在Refyoutube-VOS上,具有Resnet-50骨干的转供构型链链实现55.6 J&F,没有铃铛和哨声,显示出比先前的先前方法的8.4分。并使用强大的视频基础视觉主链,ReferFormer获得了64.9 J&F的令人印象深刻的结果。

实验
我们在不同的视觉骨干下测试我们的模型,包括:ResNet [14]、Swin Transformer [30] 和 Video Swin Transformer [31]。 文本编码器被选为 RoBERTa [29],其参数在整个训练阶段被冻结。 在 [62] 之后,我们使用来自视觉骨干的最后阶段特征作为 Transformer 的输入,它们对应的空间步长为 {8,16,32}。 在 Transformer 模型中,我们采用 4 个编码器层和 4 个解码器层,隐藏维度为 C = 256。条件查询的数量设置为 5,否则指定。

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢