- 简介本文提出了一种新的方法,能够高效地进行自回归视频生成。我们建议将视频生成问题重新表述为时间上的逐帧预测和空间上的逐集合预测的非量化自回归建模。与以往自回归模型中的光栅扫描预测或扩散模型中固定长度标记的联合分布建模不同,我们的方法保持了GPT风格模型的因果特性,以实现灵活的上下文能力,同时利用单个帧内的双向建模来提高效率。通过所提出的方法,我们训练了一个无需向量量化的新型视频自回归模型,称为NOVA。实验结果表明,即使在模型容量较小(即0.6亿参数)的情况下,NOVA在数据效率、推理速度、视觉保真度和视频流畅性方面均超越了先前的自回归视频模型。此外,NOVA在文本到图像生成任务中也优于最先进的图像扩散模型,并且训练成本显著降低。另外,NOVA在扩展视频时长上表现良好,并且在一个统一的模型中支持多种零样本应用。代码和模型已在https://github.com/baaivision/NOVA 公开提供。
- 图表
- 解决问题该论文试图解决视频自回归生成效率低下的问题,并提高生成视频的数据效率、推理速度、视觉保真度和视频流畅度。这是一个在视频生成领域内持续关注的问题,但NOVA模型提出了一种新的方法来应对这些挑战。
- 关键思路论文的关键思路是将视频生成问题重新表述为非量化自回归建模,结合时间上的逐帧预测和空间上的分组预测。这种方法保留了GPT风格模型的因果属性,同时利用了帧内的双向建模来提高效率。与传统的栅格扫描预测或扩散模型中的固定长度令牌联合分布建模不同,NOVA模型不使用向量量化,从而在较小的模型容量下实现了更高的性能。
- 其它亮点NOVA模型在多个方面表现出色,包括数据效率、推理速度、视觉保真度和视频流畅度。它在文本到图像生成任务中也超过了最先进的图像扩散模型,且训练成本显著降低。此外,NOVA模型在扩展视频时长上表现良好,并支持多种零样本应用。该研究还提供了公开的代码和模型,便于其他研究者复现和进一步探索。
- 近年来,视频生成领域有许多相关研究。例如,"Hierarchical Video Generation from Semantically Conditioned Latent Variables" 提出了层次化的视频生成方法;"VideoBERT: A Joint Model for Video and Language Representation Learning" 将视频和语言表示学习结合起来;"VQ-VAE-2 for High Resolution Image Synthesis" 则通过向量量化变分自编码器生成高分辨率图像。这些研究都从不同角度推动了视频生成技术的发展。
沙发等你来抢
去评论
评论
沙发等你来抢