- 简介最近的文本到图像生成技术取得了显著的进展,能够根据给定的文本提示合成逼真的人类照片。然而,现有的个性化生成方法无法同时满足高效率、可靠的身份保真度和灵活的文本可控性要求。在这项工作中,我们介绍了PhotoMaker,一种高效的个性化文本到图像生成方法,它主要将任意数量的输入身份证明照片编码成一个堆叠的身份证明嵌入,以保留身份信息。这样的嵌入作为统一的身份表示,不仅可以全面地封装同一输入身份的特征,还可以容纳不同身份的特征以进行后续整合。这为更有趣和实用的应用铺平了道路。此外,为了推动我们的PhotoMaker的训练,我们提出了一个面向身份证明的数据构建流程来组装训练数据。在通过提议的流程构建的数据集的滋养下,我们的PhotoMaker展现了比测试时间微调方法更好的身份保留能力,同时提供了显著的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用。我们的项目页面可在https://photo-maker.github.io/上找到。
-
- 图表
- 解决问题论文旨在解决高效、高保真度和灵活文本可控性之间的平衡问题,提出了一种新的个性化文本到图像生成方法。
- 关键思路论文提出了一种将多个输入ID图像编码为一个统一ID表示的方法,以保留ID信息。这种表示不仅可以全面地封装相同输入ID的特征,还可以容纳不同ID的特征以进行后续整合。
- 其它亮点论文提出了一种基于ID的数据构造流程来组装训练数据,提供了高效率、高质量、强泛化能力和广泛应用的生成结果。论文还提供了开源代码,项目主页可用于获取更多信息。
- 最近的相关研究包括:《Generative Adversarial Networks》、《Progressive Growing of GANs for Improved Quality, Stability, and Variation》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。
- 3
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流