动动嘴就能出片？清华联合BAAI提出第一个开源预训练文本视频生成模型CogVideo

最近，文本图像合成领域的发展可谓是风生水起，很多AI大厂纷纷在这一领域展开探索，开发出了一些非常有趣的的算法和模型，而且各有特点。例如OpenAI先后发布的两个文本图像合成模型：CLIP[1]和DALL-E[2]，前者可以根据输入文本对图像进行分类，而后者可以直接基于一段文本合成图像。谷歌大脑基于Transformer并结合扩散模型训练得到的Imagen可以根据文本合成非常有趣的高清大图。但是社区的研究者们并不安于现状，近期来自清华大学和智源研究院（BAAI）的研究团队发布了目前第一个能够根据文本直接合成视频的CogVideo模型。CogVideo同样基于大规模预训练的Transformer架构，作者还提出了一种多帧率分层训练策略，可以高效的对齐文本和视频片段。此外还需要强调的一点是，CogVideo目前只支持中文文本输入。

论文链接：

https://arxiv.org/abs/2205.15868

代码链接：

https://github.com/THUDM/CogVideo

内容中包含的图片若涉及版权问题，请及时与我们联系删除

动动嘴就能出片？清华联合BAAI提出第一个开源预训练文本视频生成模型CogVideo

评论