JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

简介

个性化文本到图像生成模型可以让用户创建描绘他们个人财产的不同场景的图像，在各个领域中找到应用。为了实现个性化能力，现有的方法依赖于在用户的自定义数据集上微调文本到图像基础模型，这对于一般用户来说可能是棘手的、资源密集型和耗时的。尽管有尝试开发不需要微调的方法，但它们的生成质量与它们的微调对照相比要低得多。在本文中，我们提出了一种名为Joint-Image Diffusion（\jedi）的有效技术，用于学习一个不需要微调的个性化模型。我们的关键思想是学习多个相关的文本-图像对的联合分布，这些对共享一个共同的主题。为了促进学习，我们提出了一种可扩展的合成数据集生成技术。一旦训练完成，我们的模型就能够在测试时通过简单地在采样过程中使用参考图像作为输入来快速和轻松地进行个性化。我们的方法不需要任何昂贵的优化过程或额外的模块，并且可以忠实地保留由任意数量的参考图像所代表的身份。实验结果表明，我们的模型在生成质量方面取得了最先进的成果，无论是定量还是定性，都显著优于基于微调和不需要微调的个性化基线。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是如何实现个性化的文本到图像生成，而无需依赖于用户的自定义数据集进行微调，同时保持生成质量高。
关键思路

本论文的关键思路是学习多个相关的文本-图像对的联合分布，以实现无需微调的个性化模型，并提出了可扩展的合成数据集生成技术。
其它亮点

本论文的亮点在于提出了一种无需昂贵优化过程或额外模块的个性化图像生成方法，只需在采样过程中使用参考图像作为输入即可实现快速和简单的个性化。实验结果表明，本模型在生成质量上显著优于现有的微调和非微调的个性化基线。
相关研究

在最近的相关研究中，也有一些关注于无需微调的个性化图像生成方法，例如《Few-shot Text-to-Image Generation》和《Generative Adversarial Networks for Extreme Learned Image Compression》。

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

提问交流

提问交流