CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

简介

文本条件图像生成模型已经取得了显著进展。这个领域的最新进展不仅依赖于模型结构的改进，还需要大量的文本-图像匹配数据集。然而，创建这些数据集非常昂贵，需要大量的劳动力。著名的人脸数据集没有相应的文本标题，这使得在这些数据集上开发文本条件图像生成模型变得困难。一些研究专注于开发仅使用没有文本标题的图像的文本到图像生成模型。在这里，我们提出了CLIP-VQDiffusion，利用预训练的CLIP模型提供多模态的文本-图像表示和强大的图像生成能力。在FFHQ数据集上，我们的模型在clipscore上比之前的最先进方法提高了4.4％，即使文本在和不在分布范围内，它也能生成非常逼真的图像。预训练模型和代码将很快在https://github.com/INFINIQ-AI1/CLIPVQDiffusion上提供。
图表
解决问题

论文旨在提出一种基于CLIP模型的文本条件图像生成模型，以解决创建文本-图像配对数据集成本高昂的问题。
关键思路

CLIP-VQDiffusion模型利用预训练的CLIP模型提供多模态的文本-图像表示和强大的图像生成能力，相比之前的方法在FFHQ数据集上表现更好。
其它亮点

论文的亮点包括使用CLIP模型进行多模态表示、使用VQ Diffusion进行图像生成、在FFHQ数据集上表现优异等。论文提供了预训练模型和代码，可供研究者使用。
相关研究

最近相关的研究包括：1）Generative Adversarial Text-to-Image Synthesis (ICML 2016)；2）ControlGAN: Conditional Text Control to Image Generation (ICCV 2019)；3）TediGAN: Text-Guided Diverse Image Generation and Manipulation (CVPR 2021)。

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

评论