BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

2024年01月25日
  • 简介
    最近的文本生成图像模型在生成忠实于输入提示的图像方面取得了惊人的成功。然而,使用单词来描述所需概念的要求对生成的概念外观的控制力有限。在本文中,我们通过提出一种方法来解决这个缺点,使现有的文本生成图像扩散模型具备个性化能力。我们提出了一种新颖的架构(BootPIG),允许用户提供对象的参考图像,以引导生成图像中概念的外观。所提出的BootPIG架构对预训练的文本生成图像扩散模型进行了最小的修改,并利用单独的UNet模型来引导生成图像朝向所需的外观。我们引入了一种训练过程,使我们能够使用从预训练的文本生成图像模型、LLM聊天代理和图像分割模型生成的数据来引导BootPIG架构的个性化能力。与需要数天预训练的现有方法不同,BootPIG架构可以在大约1小时内训练。在DreamBooth数据集上的实验表明,BootPIG在维持参考对象外观的忠实度和与文本提示的一致性方面优于现有的零样本方法,同时与测试时间微调方法相当。通过用户研究,我们验证了BootPIG生成的偏好优于现有方法,既在保持参考对象外观的忠实度方面,也在与文本提示的一致性方面。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文本到图像生成模型中对于生成物外观的控制不足的问题,提出了一种允许用户提供参考图像以指导生成物外观的个性化生成方法。
  • 关键思路
    本文提出了一种名为BootPIG的架构,该架构对预训练的文本到图像扩散模型进行最小修改,并利用一个单独的UNet模型来引导生成物的外观。通过使用预训练的文本到图像模型、LLM聊天代理和图像分割模型生成的数据,提出了一种训练过程,使得可以在约1小时内引导BootPIG架构的个性化生成能力。
  • 其它亮点
    本文提出的BootPIG方法在DreamBooth数据集上表现出比现有的零样本方法更好的性能,同时与测试时微调方法相当。通过用户研究,验证了BootPIG生成的图像在保持参考物外观的同时与文本提示相符的优越性。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation with Generative Adversarial Networks: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问