MeViS：带有运动表达的视频分割大规模基准测试

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

解决问题：这篇论文试图探索使用运动表达式来指示视频中的目标对象，提出了一个名为MeViS的大规模数据集，并基于该数据集对现有的指代视频对象数据集进行了评估。论文旨在解决语言引导视频对象分割中的运动表达式问题，以便更好地在复杂的视频场景中分割对象。

关键思路：论文的关键思路是提出了一个新的数据集MeViS，该数据集包含了大量运动表达式来指示视频中的目标对象。相比现有的指代视频对象数据集，MeViS数据集更加注重视频内容中的运动信息，并提出了一个基于运动表达式的分割算法。

其他亮点：论文还值得关注的地方包括：对5种现有的指代视频对象分割方法进行了全面比较；提出了MeViS数据集的基线算法；数据集已经公开发布，可以用于后续的研究。

关于作者：主要作者是Henghui Ding、Chang Liu、Shuting He、Xudong Jiang和Chen Change Loy，他们分别来自香港中文大学、新加坡国立大学和南洋理工大学。他们之前的代表作包括：Henghui Ding在CVPR 2019上发表了一篇题为“Learning to Reweight Examples for Robust Deep Learning”的论文；Chen Change Loy在CVPR 2019上发表了一篇题为“DADA: Depth-aware Domain Adaptation in Semantic Segmentation”的论文。

相关研究：近期其他相关的研究包括：1. "Language-Driven Video Object Segmentation with Transformers"，作者为Xiaoxiao Li、Yongjie Li、Wenbing Huang和Qingming Huang，发表在AAAI 2021上；2. "Language-Driven Video Object Segmentation with Graph Attention Networks"，作者为Yingjie Li、Wenbing Huang和Qingming Huang，发表在AAAI 2021上。

论文摘要：本文旨在探索基于动作表达式的视频分割，即根据描述物体运动的句子对视频内容中的物体进行分割。现有的指代视频对象数据集通常聚焦于显著的物体，并使用包含过多静态属性的语言表达式，这可能使得目标物体在单帧中被识别出来。这些数据集忽视了视频内容中动作的重要性，对于基于语言指导的视频对象分割来说不够理想。为了探究使用动作表达式在视频中定位和分割物体的可行性，我们提出了一个大规模数据集MeViS，其中包含许多动作表达式，用于指示复杂环境中的目标物体。我们对5种现有的指代视频对象分割（RVOS）方法进行了基准测试，并在MeViS数据集上进行了全面比较。结果表明，当前的RVOS方法不能有效地解决基于动作表达式的视频分割问题。我们进一步分析了挑战，并为所提出的MeViS数据集提出了一个基准方法。我们的基准测试旨在提供一个平台，使开发有效的基于语言指导的视频分割算法成为可能，这些算法将动作表达式作为主要线索，在复杂的视频场景中进行物体分割。所提出的MeViS数据集已经发布在https://henghuiding.github.io/MeViS。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

MeViS：带有运动表达的视频分割大规模基准测试

评论列表

评论