- 简介文本到视频扩散模型使得生成遵循文本指令的高质量视频变得容易,从而可以创建多样化和个性化的内容。然而,现有方法主要集中在生成高质量的短视频(通常为16或24帧),当天真地扩展到长视频合成时,会出现硬切换的问题。为了克服这些限制,我们介绍了StreamingT2V,这是一种自回归方法,用于生成80、240、600、1200或更多帧具有平滑过渡的长视频。关键组件包括:(i)一种称为条件注意模块(CAM)的短期记忆块,通过注意机制将当前生成与先前块提取的特征相结合,从而实现一致的块转换,(ii)一种称为外观保护模块的长期记忆块,从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景,以及(iii)一种随机混合方法,使得可以无限地自回归地应用视频增强器,而不会出现块之间的不一致性。实验表明,StreamingT2V生成高运动量的视频。相比之下,所有竞争的图像到视频方法在自回归方式下都容易出现视频停滞。因此,我们提出了StreamingT2V,这是一个高质量的无缝文本到长视频生成器,具有一致性和动态效果方面的优势。我们的代码将在https://github.com/Picsart-AI-Research/StreamingT2V上提供。
-
- 图表
- 解决问题论文旨在解决文本到长视频生成中的硬切换问题,提出了StreamingT2V模型来生成具有平滑转换的80,240,600,1200帧或更长的视频。
- 关键思路StreamingT2V模型包括三个关键组件:条件注意模块(CAM),外观保持模块和随机混合方法。CAM通过注意机制将当前生成的视频块与前一个视频块的特征联系起来,以实现一致的块转换;外观保持模块从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景;随机混合方法可以在不同视频块之间进行无缝的视频增强,从而实现无限长的视频生成。
- 其它亮点实验结果表明,StreamingT2V模型可以生成高质量的长视频,并且具有更多的运动量。与其他图像到视频方法相比,StreamingT2V模型可以避免视频停滞现象。该论文提供了开源代码。
- 与该论文相关的研究包括:Text-to-Video Generation with Contrastive Learning、Generative Adversarial Networks for Video Generation and Beyond等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流