- 简介第三届“野外像素级视频理解”(PVUW CVPR 2024)挑战旨在通过在大规模视频“野外”场景中引入的具有挑战性的视频和场景上对视频全景分割(VPS)和视频语义分割(VSS)进行基准测试来推进视频理解的技术水平。本文详细介绍了我们的研究工作,在PVUW'24 VPS挑战中获得了第一名,包括视频全景质量(VPQ)和分割跟踪质量(STQ)等所有指标,从而建立了最先进的结果。通过微调,我们的方法还在PVUW'24 VSS挑战中以mIoU(平均交并比)指标排名第三,并以VC16(16帧视频一致性)指标排名第一。我们的获胜解决方案基于巨大的基础视觉变换器模型(DINOv2 ViT-g)和经过验证的多阶段解耦视频实例分割(DVIS)框架进行视频理解。
- 图表
- 解决问题本篇论文旨在通过比较视频全景分割(VPS)和视频语义分割(VSS)的表现来推进视频理解的研究。
- 关键思路本文使用基于视觉变换器模型(DINOv2 ViT-g)和多阶段解耦视频实例分割(DVIS)框架的方法,获得了PVUW'24 VPS挑战的第一名,并在PVUW'24 VSS挑战中获得了第三名。
- 其它亮点本文使用大规模的VIPSeg测试集和VSPW测试集进行实验,证明了该方法在VPQ和STQ等所有指标上都取得了最先进的结果。此外,该方法还使用了VC16度量标准来衡量视频一致性。本文的方法可以通过微调在VSS挑战中获得良好的表现。
-  在最近的相关研究中,还有一些关于视频全景分割和视频语义分割的论文,如PanoNet和STEm-Seg。


提问交流