扩散模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。
那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。
在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,研究发现这可以减少小批量梯度的方差并加快优化速度。
为了生成更长和更高分辨率的视频,该研究引入了一种新的用于空间和时间视频扩展的条件采样技术,该技术比以前提出的方法表现更好。
研究展示了文本条件视频生成的结果和无条件视频生成基准的最新结果。例如生成五彩斑斓的烟花:
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢