谷歌 | DreamBooth：为主题驱动的一代微调文本到图像的扩散模型

大型文本到图像模型在人工智能的发展中实现了一个显著的飞跃，能够从给定的文本提示符合成高质量和多样化的图像。然而，这些模型缺乏在给定的参考集中模仿主体的外观和在不同的背景下合成其新颖再现的能力。在这项工作中，我们提出了一种新的方法来“个性化”的文本到图像的扩散模型（专门为用户的需求）。给定一个主题的几个图像作为输入，我们微调一个预先训练的文本到图像模型（Imagen，尽管我们的方法不限于特定的模型），使得它学会将唯一的标识符与该特定主题绑定。一旦对象被嵌入到模型的输出域中，则唯一标识符然后可以用于合成在不同场景中情境化的对象的完全新颖的照片真实感图像。通过利用嵌入在模型中的语义先验和新的自生类特定先验保持损失，我们的技术能够合成在参考图像中没有出现的不同场景、姿势、视图和照明条件中的主体。我们将我们的技术应用于几个以前无懈可击的任务，包括主题重新情境化、文本引导的视图合成、外观修改和艺术渲染（所有这些都保留了主题的关键特征）。

论文链接：https://arxiv.org/pdf/2208.12242.pdf

项目页面：https://dreambooth.github.io/

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌 | DreamBooth：为主题驱动的一代微调文本到图像的扩散模型

评论列表

评论