MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

解决问题:这篇论文试图探索使用运动表达式来指示视频中的目标对象,提出了一个名为MeViS的大规模数据集,并基于该数据集对现有的指代视频对象数据集进行了评估。论文旨在解决语言引导视频对象分割中的运动表达式问题,以便更好地在复杂的视频场景中分割对象。

关键思路:论文的关键思路是提出了一个新的数据集MeViS,该数据集包含了大量运动表达式来指示视频中的目标对象。相比现有的指代视频对象数据集,MeViS数据集更加注重视频内容中的运动信息,并提出了一个基于运动表达式的分割算法。

其他亮点:论文还值得关注的地方包括:对5种现有的指代视频对象分割方法进行了全面比较;提出了MeViS数据集的基线算法;数据集已经公开发布,可以用于后续的研究。

关于作者:主要作者是Henghui Ding、Chang Liu、Shuting He、Xudong Jiang和Chen Change Loy,他们分别来自香港中文大学、新加坡国立大学和南洋理工大学。他们之前的代表作包括:Henghui Ding在CVPR 2019上发表了一篇题为“Learning to Reweight Examples for Robust Deep Learning”的论文;Chen Change Loy在CVPR 2019上发表了一篇题为“DADA: Depth-aware Domain Adaptation in Semantic Segmentation”的论文。

相关研究:近期其他相关的研究包括:1. "Language-Driven Video Object Segmentation with Transformers",作者为Xiaoxiao Li、Yongjie Li、Wenbing Huang和Qingming Huang,发表在AAAI 2021上;2. "Language-Driven Video Object Segmentation with Graph Attention Networks",作者为Yingjie Li、Wenbing Huang和Qingming Huang,发表在AAAI 2021上。

论文摘要:本文旨在探索基于动作表达式的视频分割,即根据描述物体运动的句子对视频内容中的物体进行分割。现有的指代视频对象数据集通常聚焦于显著的物体,并使用包含过多静态属性的语言表达式,这可能使得目标物体在单帧中被识别出来。这些数据集忽视了视频内容中动作的重要性,对于基于语言指导的视频对象分割来说不够理想。为了探究使用动作表达式在视频中定位和分割物体的可行性,我们提出了一个大规模数据集MeViS,其中包含许多动作表达式,用于指示复杂环境中的目标物体。我们对5种现有的指代视频对象分割(RVOS)方法进行了基准测试,并在MeViS数据集上进行了全面比较。结果表明,当前的RVOS方法不能有效地解决基于动作表达式的视频分割问题。我们进一步分析了挑战,并为所提出的MeViS数据集提出了一个基准方法。我们的基准测试旨在提供一个平台,使开发有效的基于语言指导的视频分割算法成为可能,这些算法将动作表达式作为主要线索,在复杂的视频场景中进行物体分割。所提出的MeViS数据集已经发布在https://henghuiding.github.io/MeViS。

内容中包含的图片若涉及版权问题,请及时与我们联系删除