最近,文本图像合成领域的发展可谓是风生水起,很多AI大厂纷纷在这一领域展开探索,开发出了一些非常有趣的的算法和模型,而且各有特点。例如OpenAI先后发布的两个文本图像合成模型:CLIP[1]和DALL-E[2],前者可以根据输入文本对图像进行分类,而后者可以直接基于一段文本合成图像。谷歌大脑基于Transformer并结合扩散模型训练得到的Imagen可以根据文本合成非常有趣的高清大图。但是社区的研究者们并不安于现状,近期来自清华大学和智源研究院(BAAI)的研究团队发布了目前第一个能够根据文本直接合成视频的CogVideo模型。CogVideo同样基于大规模预训练的Transformer架构,作者还提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段。此外还需要强调的一点是,CogVideo目前只支持中文文本输入。

论文链接:

https://arxiv.org/abs/2205.15868

代码链接:

https://github.com/THUDM/CogVideo

内容中包含的图片若涉及版权问题,请及时与我们联系删除