【标题】VideoGPT: Video Generation using VQ-VAE and Transformers

【作者团队】W Yan, Y Zhang, P Abbeel, A Srinivas

【论文链接】https://arxiv.org/abs/2104.10157

【发表时间】2021.4.20

【推荐理由】

本文提出VideoGPT,一种新的视频生成架构,将通常用于图像生成的VQ-VAE和Transformer模型以最小的修改用于视频领域。VideoGPT使用VQVAE,采用三维卷积和轴向自注意力来学习原始视频的降采样离散潜表示,采用简单的类似GPT的架构,用空间-时间位置编码对离散潜在值进行自回归建模。VideoGPT能合成与最先进的基于GAN的视频生成模型相竞争的视频。

内容中包含的图片若涉及版权问题,请及时与我们联系删除