MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

简介

近期视频生成的进展主要利用扩散模型来生成短时视频内容。然而，这些方法在建模复杂的叙事和在长篇视频制作中维持角色一致性方面往往表现不佳，这对于电影等长篇视频制作是至关重要的。我们提出了MovieDreamer，这是一个新颖的分层框架，将自回归模型的优势与基于扩散的渲染相结合，开创了具有复杂情节进展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性，预测一系列视觉令牌，随后通过扩散渲染转换为高质量视频帧。这种方法类似于传统的电影制作过程，将复杂的故事分解成可管理的场景捕捉。此外，我们采用多模式脚本，将场景描述与详细的角色信息和视觉风格相结合，增强了场景之间的连续性和角色身份的一致性。我们在各种电影类型上进行了大量实验，证明我们的方法不仅在视觉和叙事质量上取得了卓越的成果，而且有效地将生成内容的持续时间显著延长到当前能力之外。主页：https://aim-uofa.github.io/MovieDreamer/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决长时间视频生成的问题，即如何在保持角色一致性的同时，实现复杂的故事情节和高质量的视觉效果。
关键思路

本文提出了一种新的层次结构框架，将自回归模型与扩散渲染相结合，以实现长时间视频生成。该方法利用自回归模型实现全局故事连贯性，通过扩散渲染将视觉标记序列转换为高质量视频帧。
其它亮点

本文使用多模态脚本丰富了场景描述，提高了连续性和角色身份的一致性。作者进行了广泛的实验，展示了该方法在各种电影类型上的优越视觉和叙事质量，并成功地将生成内容的持续时间显著延长。
相关研究

近期的相关研究包括使用GAN和变分自编码器进行视频生成，如《Temporal Generative Adversarial Networks》和《Variational Autoencoder for Deep Learning of Images, Labels and Captions》。

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

提问交流

提问交流