标题：清华、阿里、智源｜CogView: Mastering Text-to-Image Generation via Transformers（CogView：基于文本的图像生成变换器）

简介：通用领域中的文本到图像生成长期以来一直是一个悬而未决的问题，这需要生成模型和跨模式理解。我们提出CogView，一个 40 亿参数的 Transformer，带有 VQ-VAE 标记器以推进这个问题。我们还展示了各种下游的微调策略任务，例如风格学习、超分辨率、文本图像排名和时装设计，和稳定预训练的方法，例如消除非数值错误损失。CogView在模糊的MS COCO 上实现了新的最先进的 FID，表现优于以前的基于 GAN 的模型和最近的类似工作 DALL-E。