- 简介视频扩散模型在生成质量方面最近取得了很大进展,但仍受高内存和计算要求的限制。这是因为当前视频扩散模型通常尝试直接处理高维视频。为了解决这个问题,我们提出了内容-运动潜在扩散模型(CMD),这是预训练图像扩散模型用于视频生成的一种新的高效扩展。具体来说,我们提出了一个自动编码器,将视频简洁地编码为内容帧(如图像)和低维运动潜在表示的组合。前者表示公共内容,后者分别表示视频中的基础运动。我们通过微调预训练图像扩散模型生成内容帧,并通过训练新的轻量级扩散模型生成运动潜在表示。这里的一个关键创新是设计了一个紧凑的潜在空间,可以直接利用预训练的图像扩散模型,这在以前的潜在视频扩散模型中尚未完成。这导致了更好的生成质量和降低的计算成本。例如,CMD可以比以前的方法快7.7倍地采样512×1024分辨率和长度为16的视频,仅用3.1秒。此外,CMD在WebVid-10M上实现了212.7的FVD分数,比以前的292.4的最新技术水平提高了27.3%。
- 图表
- 解决问题提出了一种名为CMD的视频生成模型,旨在解决当前视频扩散模型高内存和计算要求的问题。
- 关键思路CMD模型将视频编码为内容帧和低维运动潜在表示的组合,其中内容帧由预训练的图像扩散模型微调生成,而运动潜在表示由新的轻量级扩散模型训练生成。
- 其它亮点CMD模型可以比之前的方法快7.7倍地生成512×1024分辨率和长度为16的视频,FVD分数为212.7,比之前的最佳结果高27.3%。
- 最近的相关研究包括:《Image Transformer》、《VideoFlow》、《DALL·E 2》等。
沙发等你来抢
去评论
评论
沙发等你来抢