【视频预测】Predicting Video with VQVAE 【论文链接】https://openreview.net/pdf?id=bBDlTR5eDIX 【作者团队】Jacob Walker • Ali Razavi • Aäron van den Oord 【机构】谷歌 【发表时间】2021/03/01 【推荐理由】谷歌的研究员基于矢量量化变分自编码器VQ-VAE和自回归生成模型提出了一种用于视频预测的新方法,曾投稿于ICLR 2021。 本文提出了一种名为矢量量化变分自编码器(VQ-VAE)的方法来解决视频帧预测问题,即在给定过去视频帧的情况下预测未来视频。通过VQ-VAE,高分辨率视频被压缩为多尺度离散潜变量分层集。这种潜在空间上的压缩能够大大降低维数,并且可利用可伸缩的自回归生成模型用于预测视频,从而以更高的分辨率在视频中生成未来可能的帧。本文提出了一组时空PixelCNN,以通过VQ-VAE学习潜在表示来预测视频。与以前的工作着重于高度受限的数据集不同,VQ-VAE着重于多样化的大规模数据集,例如Kinetics-600。与之前的其他方法相比,可以在不受约束的视频上以更高的分辨率(256×256)预测视频,这些视频将以更高的分辨率应用于现实世界的视频。

内容中包含的图片若涉及版权问题,请及时与我们联系删除