论文地址:https://arxiv.org/pdf/2203.01853.pdf

摘要

视频实例分割(VIS)旨在同时对视频中的多个对象实例进行分类,分割和跟踪。最近,由于使用了来自多个帧的更多时间上下文,因此最近的剪辑级VIS呈现一个简短的视频剪辑,每次显示出比框架级别的VIS(按段段跟踪)更强的性能。但是,大多数剪辑级方法既不是端到端的,也不是实时的。这些限制是由最近的Vis Transformer(VISTR)[25]解决的,该[25]在剪辑中执行VIS端到端。但是,由于其框架密集的关注,Vistr的训练时间很长。此外,VISTR在多个视频剪辑中无法完全端到端学习,因为它需要手工制作的数据关联将实例曲目链接在连续剪辑之间。本文提出了有效的端到端框架,并提出了有效的培训和推理。核心是通过迭代Query-video交互在空间和时间上关联利益区域(RoIs)的曲目查询和曲目建议。我们进一步提出了一种对应学习,该学习使轨道上的轨迹链接到端到端可学习。与VisTR相比,EfficientVIS需要减少15×的训练时期,同时在YouTubeVIS基准上实现最先进的准确性。同时,我们的方法可以在没有数据关联的情况下单个端到端的通行证中进行整个视频实例细分。

主要贡献

我们总结了我们的主要贡献,如下所示:

  • EfficientVIS是实时运行的第一个RoI-wise夹级VIS框架。 RoI-wise设计通过大大减少视频冗余,可以快速收敛。完全端到端的可学习跟踪和剪辑工作流的丰富时间上下文,共同带来了强劲的性能。通过训练33个时期,在Youtube-VIS[28]上,EfficientVIS Resnet-50在Youtube-VIS[28]上达到37.9 AP,训练33个时期,训练时期15倍,比VIS transformer少15倍。
  • EfficientVIS的第一个完全端到端的神经网络。如果视频为输入,则EfficientVIS直接产生有关预测,而无需任何数据关联或后处理。我们将通过诊断实验证明,这种完全端到的范式不仅比以前的部分/非端到端框架更简单,而且更有效。

方法

EfficityVis是ROI WISE夹级VIS框架。在每个前向通路中,它以输入为一个视频夹{it} tt = 1,直接产生vis预测,即踪迹掩码{mi} n i = 1以及踪迹分类,其中IT∈Rhi×Wi×Wi×3和mi∈Rt×Hi×Wi×1。 t是剪辑中的帧数,n是唯一对象实例的数量。 HI×WI是框架空间尺寸。如图2所述,EdgitionVis从提取视频基础功能的CNN主链开始。之后,有效VIS在以下查询视频互动中迭代m次:1)查询互动:曲目查询自我相互作用,并通过我们的暂时性暂时性空间自我注意力在空间和时间上进行通信不同的曲目查询跟踪不同的实例; 2)视频互动:Tracklet查询与视频功能交互,以通过我们的时间动态卷积收集目标实例信息。在每次互动的结束时,应用了几个头网络来更新跟踪查询,建议,掩码和分类。最后,EdgitionVis采用轨道口罩和分类

EfficientVIS 是一个 RoI-wise 剪辑级 VIS 框架。在每个前向传递中,它将视频剪辑作为输入并直接产生 VIS 预测,即轨迹掩码以及轨迹分类,其中\( I_t \in \mathbb{R}^{H_T \times W_I \times 3} \)\( m_i \in R^{T \times H_I \times W_I \times 1} \)\( T \)是剪辑中的帧数,N 是唯一对象实例的数量。\( H_I \times W_I \)是帧空间大小。如图 2 所示,EfficientVIS 从提取视频基础特征的 CNN 主干开始。之后,EfficientVIS 对以下查询-视频交互进行了 M 次迭代:1) 查询交互:tracklet 查询通过我们分解的时空自注意力在空间和时间上进行自我交互和通信,以便 tracklet 查询随着时间的推移始终关联同一个实例,并且不同的 tracklet 查询跟踪不同的实例; 2)视频交互:tracklet查询与视频特征交互,通过我们的时间动态卷积收集目标实例信息。在每次交互结束时,应用几个头部网络来更新 tracklet 查询、提议、掩码和分类。最后,EfficientVIS 将最后一次迭代的轨迹掩码和分类输出作为 VIS 结果。

实验

通过AdamW训练EfficientVIS,初始学习率为2.5×10-5。我们为33个时期训练该模型,在第27个时期,学习率下降了10倍。例如,在YouTube-VIS 2019上,可以在12小时内使用4个RTX 3090 GPU在12小时内进行训练。除非另有说明,否则不使用培训数据扩展。

内容中包含的图片若涉及版权问题,请及时与我们联系删除