文本到视频扩散模型使得生成遵循文本指令的高质量视频变得容易,从而可以创建多样化和个性化的内容。然而,现有方法主要集中在生成高质量的短视频(通常为16或24帧),当天真地扩展到长视频合成时,会出现硬切换的问题。为了克服这些限制,我们介绍了StreamingT2V,这是一种自回归方法,用于生成80、240、600、1200或更多帧具有平滑过渡的长视频。关键组件包括:(i)一种称为条件注意模块(CAM)的短期记忆块,通过注意机制将当前生成与先前块提取的特征相结合,从而实现一致的块转换,(ii)一种称为外观保护模块的长期记忆块,从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景,以及(iii)一种随机混合方法,使得可以无限地自回归地应用视频增强器,而不会出现块之间的不一致性。实验表明,StreamingT2V生成高运动量的视频。相比之下,所有竞争的图像到视频方法在自回归方式下都容易出现视频停滞。因此,我们提出了StreamingT2V,这是一个高质量的无缝文本到长视频生成器,具有一致性和动态效果方面的优势。我们的代码将在https://github.com/Picsart-AI-Research/StreamingT2V上提供。
提问交流