标题:伯克利|VideoGPT: Video Generation using VQ-VAE and Transformer(VideoGPT:使用VQ-VAE和变压器生成视频)

简介:我们介绍VideoGPT:一种概念简单的架构,用于扩展基于似然的生成对自然视频进行建模。VideoGPT使用VQVAE,该VQVAE通过采用3D卷积和轴向自注意力学习降采样的原始视频离散潜像表示。 然后使用简单的类似GPT的架构进行自回归使用时空建模离散潜位置编码。 尽管制定方法简单且易于训练,但我们的体系结构还是能够生成与最新GAN模型具有竞争力的样本,以在视频生成视频BAIR Robot数据集,并从UCF-101和Tumbler GIF数据集(TGIF)生成高保真自然图像。 我们希望我们建议的体系结构可作为可复制的参考用于基于视频生成的的简约变换器生成模型。

代码:https://github.com/wilson1yan/VideoGPT

论文链接:https://arxiv.org/pdf/2104.10157v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除