UC Berkeley | VideoGPT: 基于VQ-VAE和Transformer的视频生成

【标题】VideoGPT: Video Generation using VQ-VAE and Transformers

【作者团队】W Yan, Y Zhang, P Abbeel, A Srinivas

【发表时间】2021.4.20

【推荐理由】

本文提出VideoGPT，一种新的视频生成架构，将通常用于图像生成的VQ-VAE和Transformer模型以最小的修改用于视频领域。VideoGPT使用VQVAE，采用三维卷积和轴向自注意力来学习原始视频的降采样离散潜表示，采用简单的类似GPT的架构，用空间-时间位置编码对离散潜在值进行自回归建模。VideoGPT能合成与最先进的基于GAN的视频生成模型相竞争的视频。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

UC Berkeley | VideoGPT: 基于VQ-VAE和Transformer的视频生成

评论列表

评论