标题:清华、阿里、智源|CogView: Mastering Text-to-Image Generation via Transformers(CogView:基于文本的图像生成变换器)

简介:通用领域中的文本到图像生成长期以来一直是一个悬而未决的问题,这需要生成模型和跨模式理解。 我们提出CogView,一个 40 亿参数的 Transformer,带有 VQ-VAE 标记器以推进这个问题。 我们还展示了各种下游的微调策略任务,例如 风格学习、超分辨率、文本图像排名和时装设计,和稳定预训练的方法,例如消除非数值错误损失。CogView在模糊的MS COCO 上实现了新的最先进的 FID,表现优于以前的基于 GAN 的模型和最近的类似工作 DALL-E。

代码:https://github.com/THUDM/CogView

论文:https://arxiv.org/pdf/2105.13290v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除