谷歌｜编码器-解码器架构：C-ViViT文字生成视频解析

仅需4行文字即可生成视频

这是谷歌去年10月份便发布的一个文本转视频（Text-to-Video）模型：Phenaki，只需一段提示词，分分钟可以生成长达两分钟的视频。

打字就能生成的视频

与以往AI生成的视频不同，Phenaki最大的特点便是有故事、有长度。例如：在火星上，宇航员走过一个水坑，水里倒映着他的侧影；他在水旁起舞；然后宇航员开始遛狗；最后他和小狗一起看火星上看烟花。

而在谷歌更早发布Phenaki之际，还展示了向Phenaki输入一个初始帧以及一个提示词，便可以生成一段视频的能力。例如给定这样一张静态图：

然后再给它Phenaki简单“投喂”一句：白猫用猫爪触摸摄像机。效果就出来了：

还是基于这张图，把提示词改成“一只白猫打哈欠”，效果就成这样了：

但除了Phenaki之外，谷歌当时还一道发布过Imagen Video，能够生成1280*768分辨率、每秒24帧的高清视频片段。

它基于图像生成SOTA模型Imagen，展示出了三种特别的能力：

更早的，Meta也发布了Make-A-Video，不仅能够通过文字转换视频，还能根据图像生成视频，比如：

简单来说，Phenaki相较于以往的生成视频模型，它更注重时间长度任意性和连贯性。Phenaki之所以能够生成任意时间长度的视频，很大程度上要归功于新的编码器-解码器架构：C-ViViT。

它是ViViT的一个因果变体，能够将视频压缩为离散嵌入。

要知道，以往获取视频压缩，要么就是编码器不能及时压缩视频，导致最终生成的视频过短，例如VQ-GAN，要么就是编码器只支持固定视频长度，最终生成视频的长度不能任意调节，例如VideoVQVAE。

但C-ViViT就不一样了，它可谓是兼顾了上面两种架构的优点，能够在时间和空间维度上压缩视频，并且在时间上保持自回归的同时，还可以自回归生成任意长度的视频。

C-ViViT可以使模型生成任意长度的视频，那最终视频的逻辑性又是怎么保证的呢？

这就得靠Phenaki另外一个比较重要的部分：双向Transformer。

在这其中，为节省时间，采样步骤是固定的，并且在处理文本提示的过程中，能同时预测不同的视频token。

这样一来，结合前面提到的，C-ViViT能够在时间和空间维度上压缩视频，压缩出来的token是具有时间逻辑性的。

也就是说，在这些token上经过掩码训练的Transformer也具备时间逻辑性，最终生成的视频在连贯性自然也就有了保证。

如果还想了解更多关于Phenaki的东西，可以戳这里查看。

参考链接：
[1] https://phenaki.video/

内容中包含的图片若涉及版权问题，请及时与我们联系删除