- 简介本文介绍了“视频时空分离网络(VDST-Net)”框架,通过使用半解耦知识蒸馏来预测高质量的类激活图(CAMs),从而解开时空信息。教师网络设计用于解决视频中没有提供有关物体位置和时间的具体信息时的时间冲突,而学生网络则通过利用时间依赖性来整合信息。我们在公共参考数据集和更具挑战性的手术视频数据集上展示了我们的框架的有效性,其中物体平均仅出现在不到60%的注释帧中。我们的方法优于最先进的技术,并在视频级弱监督下生成更好的分割掩模。
-
- 图表
- 解决问题本文旨在解决弱监督视频对象分割(WSVOS)中的语义注释问题,其中多个手术工具频繁进出视野,这比通常在WSVOS中遇到的问题更加困难。
- 关键思路本文引入了视频时空分离网络(VDST-Net)框架,使用半解耦知识蒸馏来解开时空信息,并利用时间依赖性整合信息,以预测高质量的类激活图(CAMs),从而实现更准确的分割。
- 其它亮点实验结果表明,VDST-Net框架在公共参考数据集和更具挑战性的手术视频数据集上均优于当前最先进的技术,并在视频级弱监督下生成了更优的分割掩码。
- 最近在这个领域中的相关研究包括:《Weakly Supervised Video Object Segmentation Using Joint Learning of Trajectory and Appearance》、《Video Object Segmentation with Re-identification》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流