伯克利&Meta AI｜VideoCutLER：非常简单的无监督视频实例分割

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation

X Wang, I Misra, Z Zeng, R Girdhar, T Darrell
[UC Berkeley & Meta AI]

VideoCutLER：非常简单的无监督视频实例分割

现有的无监督视频实例分割方法依赖运动估计，如光流，在小运动或复杂模式下表现较差。
本文提出VideoCutLER，不需要光流或真实视频用于训练，使用一个简单的cut-synthesis-and-learn流程。
首先在图像上用MaskCut生成伪蒙版，然后用ImageCut2Video将图像对转换成带蒙版轨迹的合成视频，视频用于训练一个视频实例分割模型。
尽管简单，VideoCutLER在YouTubeVIS上取得新的state-of-the-art，AP50提高上一方法OCLR的10倍，也缩小了有监督和无监督方法的差距。
VideoCutLER可以作为有监督视频实例分割的强大预训练，在YouTubeVIS上AP高于DINO 15.9%。
VideoCutLER展示了在草图、CGI等各种领域的零样本泛化，其简单性有利于未来研究。
限制包括没有使用真实视频或光流联合训练，但简单性有助于隔离合成数据的影响。

动机：现有的无监督视频实例分割方法通常依赖于运动估计，并且在跟踪小物体或多样化运动时遇到困难。本文提出一种简单的无监督多实例视频分割方法VideoCutLER，不使用基于运动的学习信号(如光流)或在自然视频上进行训练。本文发现，使用高质量的伪掩码和简单的视频合成方法进行模型训练已经足够有效，能在视频帧中有效地分割和跟踪多个实例。
方法：提出VideoCutLER，一种无监督视频实例分割模型，采用切割-合成-学习流程。首先，使用MaskCut生成图像中多个物体的伪掩膜。然后，使用ImageCut2Video将小批量中的随机图像转换为带有相应伪掩膜轨迹的视频。最后，使用这些伪掩膜轨迹训练无监督视频实例分割模型。
优势：VideoCutLER在挑战性的YouTubeVIS基准测试中取得了有竞争力的无监督学习结果，实现了50.7%的APvideo50，大幅超过了先前的最先进方法。此外，VideoCutLER还可以作为监督视频实例分割任务的强大预训练模型，在YouTubeVIS-2019中超过了DINO 15.9%的APvideo。

提出一种无监督视频实例分割方法VideoCutLER，通过使用高质量的伪掩膜和简单的视频合成方法进行模型训练，在YouTubeVIS基准测试上取得了有竞争力的结果。

https://arxiv.org/abs/2308.14710

内容中包含的图片若涉及版权问题，请及时与我们联系删除

伯克利&Meta AI｜VideoCutLER：非常简单的无监督视频实例分割

评论列表

评论