Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models

2024年05月27日
  • 简介
    我们介绍了一种基于预训练扩散模型的视频语义分割(VSS)的零样本方法。一个不断增长的研究方向是利用扩散模型对下游视觉任务进行处理,以利用它们对图像语义的深刻理解。然而,这些方法中的大部分都集中在像语义对应和分割这样的图像相关任务上,对于视频任务如VSS则关注较少。理想情况下,基于扩散的图像语义分割方法可以逐帧地应用于视频。然而,我们发现它们在视频上的性能不佳,因为视频数据固有的时间信息建模缺失。为此,我们解决了这个问题,提出了一个针对VSS的框架,基于预训练的图像和视频扩散模型。我们提出了一种基于扩散特征构建场景上下文模型的方法,该模型是自回归更新的,以适应场景变化。该上下文模型预测每帧的粗略分割图,保持时间上的一致性。为了进一步优化这些图,我们提出了一种基于对应关系的优化策略,将预测结果在时间上进行聚合,从而得到更加可靠的预测结果。最后,我们引入了一个掩码调制方法,将粗略分割图升采样到高质量的全分辨率。实验结果表明,我们提出的方法在各种VSS基准测试中显著优于现有的零样本图像语义分割方法,而且尽管没有明确针对VSS进行训练,它在VSPW数据集上也能与监督式VSS方法相媲美。
  • 图表
  • 解决问题
    本篇论文尝试解决视频语义分割(VSS)中缺乏时间信息建模的问题,提出了一种基于预训练扩散模型的VSS的零样本方法。
  • 关键思路
    论文提出了一种基于预训练图像和视频扩散模型的VSS框架,其中建立了一个场景上下文模型来自适应地预测每一帧的粗分割图,并通过基于对应关系的细化策略和掩膜调制方法来提高分割质量。
  • 其它亮点
    论文的实验结果表明,所提出的方法在多个VSS基准测试中都显著优于现有的零样本图像语义分割方法,而且在VSPW数据集上与监督学习方法相媲美,尽管没有为VSS进行显式训练。此外,论文还开源了代码。
  • 相关研究
    在最近的相关研究中,有一些基于扩散模型的图像语义分割方法,但是在视频语义分割方面的研究相对较少。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论