北大与微软联合提出面向主题和文本联合条件图像生成的统一多模态潜扩散

语言引导的图像生成随着扩散模型的提出取得了巨大的成功。然而，大部分研究所使用的文本对于图像细节的描述不够具体，使得生成的图像往往无法准确符合用户的预期。因此，本文提出了一个统一的多模态潜扩散框架。

要点:

作者：Y Ma, H Yang, W Wang, J Fu, J Liu

内容中包含的图片若涉及版权问题，请及时与我们联系删除