Kandinsky 3.0 Technical Report

简介

我们介绍了Kandinsky 3.0，这是一个基于潜在扩散的大规模文本到图像生成模型，延续了文本到图像Kandinsky系列模型，并反映了我们在实现更高质量和逼真度的图像生成方面的进展。与Kandinsky 2.x的先前版本相比，Kandinsky 3.0利用了两倍大的U-Net主干，十倍大的文本编码器，并删除了扩散映射。我们描述了模型的架构、数据收集过程、训练技术和用户交互的生产系统。我们重点关注了关键组件，这些组件是我们通过大量实验确定的，对提高我们的模型质量与其他模型相比影响最大的因素。通过我们的并排比较，Kandinsky在文本理解方面变得更好，并在特定领域上表现更好。项目页面：https://ai-forever.github.io/Kandinsky-3
解决问题

Kandinsky 3.0旨在通过基于潜在扩散的大规模文本到图像生成模型来提高图像生成的质量和逼真度。
关键思路

Kandinsky 3.0采用了一个两倍大的U-Net骨干网络和一个十倍大的文本编码器，并且删除了扩散映射，从而提高了模型的质量和逼真度。
其它亮点

论文介绍了模型的架构、数据收集过程、训练技巧和用户交互的生产系统。作者重点介绍了对模型质量改进最显著的关键组件，并进行了对比实验。该模型在文本理解和特定领域的工作方面表现更好，项目页面提供了开源代码。
相关研究

最近的相关研究包括：1）DALL-E，2）CLIP，3）BigGAN，4）StyleGAN2，5）StackGAN++。

评论