- 简介视频的时空压缩在OpenAI的SORA和许多其他视频生成模型中发挥着至关重要的作用,利用诸如变分自编码器(VAE)之类的网络。例如,许多类似LLM的视频模型在VQVAE框架内学习来自3D VAE的离散令牌的分布,而大多数基于扩散的视频模型则捕获由2D VAE提取的连续潜在变量的分布,而不进行量化。时间压缩通过均匀帧采样简单地实现,这导致相邻帧之间的运动不平滑。目前,研究社区中缺乏一种通用的连续视频(3D)VAE,用于基于扩散的视频模型。此外,由于当前的基于扩散的方法通常使用预训练的文本到图像(T2I)模型实现,因此直接训练视频VAE而不考虑与现有T2I模型的兼容性将导致它们之间存在潜在空间差距,即使使用T2I模型作为初始化,也需要大量的计算资源来训练以弥合差距。为了解决这个问题,我们提出了一种用于训练潜在视频模型的视频VAE的方法,即CV-VAE,其潜在空间与给定图像VAE的潜在空间兼容,例如Stable Diffusion(SD)的图像VAE。这种兼容性是通过提出的新型潜在空间正则化实现的,其中利用了图像VAE来制定正则化损失。由于潜在空间的兼容性,视频模型可以在真正的时空压缩潜在空间中无缝地从预训练的T2I或视频模型中进行训练,而不仅仅是在等间隔采样视频帧。有了我们的CV-VAE,现有的视频模型可以进行最小的微调,就可以生成四倍的帧数。进行了大量实验来证明所提出的视频VAE的有效性。
- 图表
- 解决问题提出一种视频压缩的方法,使得视频模型可以在与图像模型相容的潜在空间中进行训练,从而实现更高效的视频生成。
- 关键思路提出一种视频VAE(CV-VAE)的方法,通过与图像VAE相容的潜在空间正则化来实现视频模型的训练。
- 其它亮点CV-VAE方法可以让现有的视频模型在最小的微调下生成四倍的帧数。实验结果表明了该方法的有效性。
- 最近的研究集中在利用VAE进行视频压缩和生成上,但是缺乏一个通用的连续视频(3D)VAE。
沙发等你来抢
去评论
评论
沙发等你来抢