PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation

简介

这篇论文介绍了一种无需昂贵的视频注释，利用图像数据集实现视频实例分割的方法。视频实例分割需要在视频中检测、分割和跟踪对象，通常依赖于昂贵的视频注释。该方法采用 PM-VIS 算法，动态处理边界框和实例级像素注释。为了补充视频数据集中缺失的类别，我们引入了 ImageNet-bbox，并提出了 PM-VIS+ 算法来根据注释类型调整监督。为了提高准确性，我们在未注释的视频数据上使用伪掩码和半监督优化技术。该方法实现了高效的视频实例分割性能，无需手动视频注释，提供了一种经济实惠的解决方案和视频实例分割应用的新视角。代码将在 https://github.com/ldknight/PM-VIS-plus 上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频实例分割需要昂贵视频注释的问题，提出一种利用图像数据集消除视频注释的方法。
关键思路

本文提出了一种新的方法，通过动态处理边界框和实例级像素注释来利用图像数据集进行视频实例分割，使用ImageNet-bbox来补充视频数据集中缺失的类别，使用伪掩模和半监督优化技术来提高准确性。
其它亮点

该方法可以在没有手动视频注释的情况下实现高质量的视频实例分割，提供了一种经济实惠的解决方案和视频实例分割应用的新视角。研究者还开源了代码，并使用了多个数据集进行了实验。
相关研究

在相关研究方面，最近的研究包括Mask R-CNN、Detectron2等。

PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation

提问交流

提问交流