StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

向作者提问

NEW

简介

文本到视频扩散模型使得生成遵循文本指令的高质量视频变得容易，从而可以创建多样化和个性化的内容。然而，现有方法主要集中在生成高质量的短视频（通常为16或24帧），当天真地扩展到长视频合成时，会出现硬切换的问题。为了克服这些限制，我们介绍了StreamingT2V，这是一种自回归方法，用于生成80、240、600、1200或更多帧具有平滑过渡的长视频。关键组件包括：（i）一种称为条件注意模块（CAM）的短期记忆块，通过注意机制将当前生成与先前块提取的特征相结合，从而实现一致的块转换，（ii）一种称为外观保护模块的长期记忆块，从第一个视频块中提取高级场景和对象特征，以防止模型忘记初始场景，以及（iii）一种随机混合方法，使得可以无限地自回归地应用视频增强器，而不会出现块之间的不一致性。实验表明，StreamingT2V生成高运动量的视频。相比之下，所有竞争的图像到视频方法在自回归方式下都容易出现视频停滞。因此，我们提出了StreamingT2V，这是一个高质量的无缝文本到长视频生成器，具有一致性和动态效果方面的优势。我们的代码将在https://github.com/Picsart-AI-Research/StreamingT2V上提供。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文旨在解决文本到长视频生成中的硬切换问题，提出了StreamingT2V模型来生成具有平滑转换的80，240，600，1200帧或更长的视频。
关键思路

StreamingT2V模型包括三个关键组件：条件注意模块（CAM），外观保持模块和随机混合方法。CAM通过注意机制将当前生成的视频块与前一个视频块的特征联系起来，以实现一致的块转换；外观保持模块从第一个视频块中提取高级场景和对象特征，以防止模型忘记初始场景；随机混合方法可以在不同视频块之间进行无缝的视频增强，从而实现无限长的视频生成。
其它亮点

实验结果表明，StreamingT2V模型可以生成高质量的长视频，并且具有更多的运动量。与其他图像到视频方法相比，StreamingT2V模型可以避免视频停滞现象。该论文提供了开源代码。
相关研究

与该论文相关的研究包括：Text-to-Video Generation with Contrastive Learning、Generative Adversarial Networks for Video Generation and Beyond等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问