Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

向作者提问

NEW

简介

本文探讨了使用预训练文本到视频（T2V）扩散模型生成的视觉表征在视频理解任务中的应用。我们假设预训练生成式T2V模型学习到的潜在表征具有丰富的语义和一致的时间对应关系，从而自然地促进视频理解。我们通过经典的指代视频对象分割（R-VOS）任务验证了我们的假设。我们提出了一个新的框架，称为“VD-IT”，它是基于一个固定的预训练T2V模型设计的专用组件。具体来说，VD-IT使用文本信息作为条件输入，确保精确的时间实例匹配的语义一致性。它进一步将图像标记作为补充文本输入，丰富了特征集以生成详细和细致的掩模。此外，我们提出使用额外的噪声预测模块来预测视频特定的噪声，而不是使用标准的高斯噪声，这可以帮助保持特征的保真度并提高分割质量。通过广泛的实验，我们惊奇地发现，与通常用于预先训练鉴别式图像/视频预任务的视频主干（例如Video Swin Transformer）不同，固定的生成式T2V扩散模型具有更好的保持语义对齐和时间一致性的潜力。在现有的标准基准测试中，我们的VD-IT取得了极具竞争力的结果，超过了许多现有的最先进方法。代码将在\url{https://github.com/buxiangzhiren/VD-IT}上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探讨预训练的文本到视频（T2V）扩散模型产生的视觉表示在视频理解任务中的应用。作者假设从预训练的生成T2V模型中学习到的潜在表示包含丰富的语义和连贯的时间对应关系，从而自然地促进视频理解。作者通过经典的指代视频对象分割（R-VOS）任务验证了这一假设。
关键思路

本文提出了一个新的框架VD-IT，基于一个固定的预训练T2V模型，专门设计了组件。VD-IT使用文本信息作为条件输入，确保精确的时间实例匹配的语义一致性。它进一步将图像标记作为补充文本输入，丰富特征集以生成详细和细致的掩码。此外，本文还提出了使用额外的噪声预测模块来预测视频特定的噪声，从而有助于保持特征的保真度并提高分割质量。
其它亮点

本文的亮点在于使用固定的生成T2V扩散模型，与常用的预先训练的图像/视频预任务的视频骨干网络（例如Video Swin Transformer）不同，展现了更好的保持语义对齐和时间一致性的潜力。在现有的标准基准测试中，VD-IT取得了非常有竞争力的结果，超过了许多现有的最先进方法。作者将代码开源。
相关研究

最近在这个领域中，还有一些相关的研究，如：Dynamic Video Segmentation Network；Video Instance Segmentation；Video Swin Transformer等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问