Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

2024年03月18日
  • 简介
    本文探讨了使用预训练文本到视频(T2V)扩散模型生成的视觉表征在视频理解任务中的应用。我们假设预训练生成式T2V模型学习到的潜在表征具有丰富的语义和一致的时间对应关系,从而自然地促进视频理解。我们通过经典的指代视频对象分割(R-VOS)任务验证了我们的假设。我们提出了一个新的框架,称为“VD-IT”,它是基于一个固定的预训练T2V模型设计的专用组件。具体来说,VD-IT使用文本信息作为条件输入,确保精确的时间实例匹配的语义一致性。它进一步将图像标记作为补充文本输入,丰富了特征集以生成详细和细致的掩模。此外,我们提出使用额外的噪声预测模块来预测视频特定的噪声,而不是使用标准的高斯噪声,这可以帮助保持特征的保真度并提高分割质量。通过广泛的实验,我们惊奇地发现,与通常用于预先训练鉴别式图像/视频预任务的视频主干(例如Video Swin Transformer)不同,固定的生成式T2V扩散模型具有更好的保持语义对齐和时间一致性的潜力。在现有的标准基准测试中,我们的VD-IT取得了极具竞争力的结果,超过了许多现有的最先进方法。代码将在\url{https://github.com/buxiangzhiren/VD-IT}上提供。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在探讨预训练的文本到视频(T2V)扩散模型产生的视觉表示在视频理解任务中的应用。作者假设从预训练的生成T2V模型中学习到的潜在表示包含丰富的语义和连贯的时间对应关系,从而自然地促进视频理解。作者通过经典的指代视频对象分割(R-VOS)任务验证了这一假设。
  • 关键思路
    本文提出了一个新的框架VD-IT,基于一个固定的预训练T2V模型,专门设计了组件。VD-IT使用文本信息作为条件输入,确保精确的时间实例匹配的语义一致性。它进一步将图像标记作为补充文本输入,丰富特征集以生成详细和细致的掩码。此外,本文还提出了使用额外的噪声预测模块来预测视频特定的噪声,从而有助于保持特征的保真度并提高分割质量。
  • 其它亮点
    本文的亮点在于使用固定的生成T2V扩散模型,与常用的预先训练的图像/视频预任务的视频骨干网络(例如Video Swin Transformer)不同,展现了更好的保持语义对齐和时间一致性的潜力。在现有的标准基准测试中,VD-IT取得了非常有竞争力的结果,超过了许多现有的最先进方法。作者将代码开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Dynamic Video Segmentation Network;Video Instance Segmentation;Video Swin Transformer等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问