- 简介这篇论文介绍了一种无需昂贵的视频注释,利用图像数据集实现视频实例分割的方法。视频实例分割需要在视频中检测、分割和跟踪对象,通常依赖于昂贵的视频注释。该方法采用 PM-VIS 算法,动态处理边界框和实例级像素注释。为了补充视频数据集中缺失的类别,我们引入了 ImageNet-bbox,并提出了 PM-VIS+ 算法来根据注释类型调整监督。为了提高准确性,我们在未注释的视频数据上使用伪掩码和半监督优化技术。该方法实现了高效的视频实例分割性能,无需手动视频注释,提供了一种经济实惠的解决方案和视频实例分割应用的新视角。代码将在 https://github.com/ldknight/PM-VIS-plus 上提供。
- 图表
- 解决问题本论文旨在解决视频实例分割需要昂贵视频注释的问题,提出一种利用图像数据集消除视频注释的方法。
- 关键思路本文提出了一种新的方法,通过动态处理边界框和实例级像素注释来利用图像数据集进行视频实例分割,使用ImageNet-bbox来补充视频数据集中缺失的类别,使用伪掩模和半监督优化技术来提高准确性。
- 其它亮点该方法可以在没有手动视频注释的情况下实现高质量的视频实例分割,提供了一种经济实惠的解决方案和视频实例分割应用的新视角。研究者还开源了代码,并使用了多个数据集进行了实验。
- 在相关研究方面,最近的研究包括Mask R-CNN、Detectron2等。
沙发等你来抢
去评论
评论
沙发等你来抢