语言引导的图像生成随着扩散模型的提出取得了巨大的成功。然而,大部分研究所使用的文本对于图像细节的描述不够具体,使得生成的图像往往无法准确符合用户的预期。因此,本文提出了一个统一的多模态潜扩散框架。

要点:

  • 提出一种新的主题和文本联合条件图像生成框架,可以生成高质量的图像;
  • 设计了一种统一的文本和图像编码器,将混合的文本和图像序列编码为一个多模态潜空间,以用作图像生成过程的指导;
  • 提出一种融合采样技术,可以消除输入图像中的无关部分,从而减轻过拟合问题。

论文地址:https://arxiv.org/abs/2303.09319

作者:Y Ma, H Yang, W Wang, J Fu, J Liu

图片

图片