视频目标分割 (VOS)的现有SOTA方法在已有数据集上已经取得90+% J&F的优异性能,似乎这一问题已经被解决得很好了。那么现有方法在更复杂的场景中的处理能力如何呢?

为了探究这个问题,来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集coMplex video Object SEgmentation (MOSE)

题目和作者.png

论文题目:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
论文链接:https://arxiv.org/abs/2302.01872
项目主页:https://henghuiding.github.io/MOSE

视频目标分割 (Video Object Segmentation, VOS)是计算机视觉中的一个热点问题。在一段视频中,给定目标物体在视频第一帧中某些线索(如mask, bounding box, 或者scribble等形式),VOS旨在准确地分割和追踪该目标物体,获取该物体在整个视频序列中每一帧的高质量mask。与现有的VOS数据集相比,MOSE最主要的特点是在大量复杂场景中包含了拥挤的目标群、各式各样的遮挡、消失并重现的物体、以及不明显的小物体等富有挑战的情景。因此,MOSE可以很好地衡量VOS算法在复杂场景下的视频目标分割性能,并推动VOS在更真实场景下的应用研究。

在MOSE数据集上,研究者们在4种不同设置下对18种视频目标分割方法进行了广泛实验,包括6种使用mask的半监督(semi-supervised) 方法、2种使用bounding box的半监督方法、3种多目标无监督(unsupervised) 方法、和7种交互式视频分割方法。实验表明,现有方法尚不能在复杂场景下取得令人满意的结果。如在最热点的semi-supervised VOS任务中,现有方法的VOS性能从DAVIS和YouTube-VOS上的80%~90%J&F下降到仅40%~50%J&F。这些实验表明,尽管当前方法在现有数据集上取得了优异的性能,但在复杂场景下的视频目标分割仍存在很多未解决的挑战,未来需要更多工作来研究和探索这些挑战

MOSE数据集简介

MOSE包含共2149个,总时长达443分钟的视频,包含有36个类别的5200个物体。标注的mask数总计达431,725个。从下表中可以看出,MOSE在标注规模和总时长上明显相较于其他数据集更大

表1.png

不仅在规模上,MOSE在难度上也尤为突出。从表中的消失率(Disapp. Rate)一列来看,MOSE中有28.8%的物体在至少一帧中完全消失,非常考验模型对物体的再跟踪能力。同时,从反映物体遮挡强度的mBOR指标来看,MOSE视频的遮挡现象相较于其他VOS数据集也更加显著。

此外,在保证目标物体的多样性和复杂性的同时,MOSE也丰富了视频长度的多样性。数据集中包含了短至5秒的短视频和长至1分钟的长视频。在保证标注帧率最低为5fps的基础上,数据集中还包含了很多高达30fps的完全标注视频,这考验模型在追踪速度方面的稳定性,也进一步提高了MOSE数据集的难度。

可视化

MOSE数据集中包括大量的拥挤、消失、遮挡和非显著/小物体等复杂场景。下面介绍一些数据集中的典型视频。

如下视频展示了一个非常拥挤复杂但贴近现实的球赛场景。红色球员首先以背对镜头的状态被其他球员所遮挡,之后在转身后以面向镜头的状态重新出现,与蓝色球员相互遮挡,这种被遮挡前和重新出现后的巨大差别极大地增加了视频的难度。

动图1.gif

下面的视频片段中同时包含了面积较大的物体(汽车)和面积较小的物体(行人)。对于行人来说,汽车在行驶过程中几乎将两个行人完全遮挡。而大型物体(汽车)首先被环境(树木)所遮挡,而后遮挡位于画面后方的较小物体(行人)。

动图2.gif

如下视频展示了七只山羊大步往前跑,相互之间外观高度相似且彼此遮挡,极大增加了视频目标分割的难度。且mask标注质量很高,对动物的尾巴和羊角等细节都进行了精细的标注。

动图3.gif

更多可视化片段参见项目主页。

内容中包含的图片若涉及版权问题,请及时与我们联系删除