CVPR 2022｜语言作为引用视频对象分割的查询

论文地址：https://arxiv.org/pdf/2201.00487.pdf

开源地址：https://github.com/wjn922/ReferFormer

摘要

引用视频对象细分（R-VOS）是一项新兴的跨模式任务，旨在分割所有视频帧中语言表达式所引用的目标对象。在这项工作中，我们提出了一个基于变压器（称为Referformer）的简单而统一的框架。它将语言视为查询，并直接关注视频帧中最相关的区域。具体而言，我们引入了一组以语言为条件的对象查询，作为变压器的输入。以这种方式，所有查询都必须仅找到引用的对象。它们最终被转变为动态内核，这些内核捕获了关键的对象级信息，并扮演卷积过滤器以从特征地图生成分割掩码的角色。对象跟踪是通过链接跨帧的相应查询来自然实现的。这种机制大大简化了管道，终端框架与以前的方法显着不同。关于Ref-Youtube-Vos，Ref-Davis17，A2D-Sentences和JHMDB句子的广泛实验显示了推荐人的有效性。在Ref-Youtube-Vos上，RefureFormer在没有铃铛和哨声的Resnet-50骨架上实现了55.6 J＆F，超过了先前的最先进性能8.4分。此外，借助强大的大型主链，Refureformer在所有现有方法中都达到了64.2的最佳J＆F。此外，我们分别在A2D句子和JHMDB句子上显示了55.0 MAP和43.7 MAP的令人印象深刻的结果，这显着超过了先前的方法。

主要贡献

这项工作的主要贡献如下。

我们提出了一个简单而统一的框架，用于引用视频对象分割，称为Referformer。给定视频剪辑和相应的语言表达式，我们的框架直接以端到端的方式以所有框架来检测，段和跟踪所引用的对象。
我们将语言的概念作为查询。我们介绍了一组少量的对象查询，该查询以文本表达式为条件，仅参考对象。这些条件查询在初始状态下的不同帧共享，并将其转换为动态内核，以从特征地图中滤除分割掩码。这种机制为R-VOS任务提供了新的视角。
我们为多尺度视觉融合设计了跨模式特征金字塔网络（CM-FPN），从而提高了蒙版特征的歧视性以进行准确的分割。
关于Ref-Youtube-Vos，RefDAVIS17，A2D-Sentences和JHMDB-Sentences的广泛实验表明，Refureformer的表现优于这四个基准的先前方法，较大的边距。例如，在Refyoutube-VOS上，具有Resnet-50骨干的转供构型链链实现55.6 J＆F，没有铃铛和哨声，显示出比先前的先前方法的8.4分。并使用强大的视频基础视觉主链，ReferFormer获得了64.9 J＆F的令人印象深刻的结果。

实验

我们在不同的视觉骨干下测试我们的模型，包括：ResNet [14]、Swin Transformer [30] 和 Video Swin Transformer [31]。文本编码器被选为 RoBERTa [29]，其参数在整个训练阶段被冻结。在 [62] 之后，我们使用来自视觉骨干的最后阶段特征作为 Transformer 的输入，它们对应的空间步长为 {8,16,32}。在 Transformer 模型中，我们采用 4 个编码器层和 4 个解码器层，隐藏维度为 C = 256。条件查询的数量设置为 5，否则指定。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022｜语言作为引用视频对象分割的查询

摘要

主要贡献

实验

评论列表

评论