- 简介本文借鉴了最近文本到图像生成的扩散模型的进展,身份保留的个性化已经在准确捕捉特定身份方面取得了显著进展,只需一张参考图像即可。然而,现有方法主要将参考图像整合到文本嵌入空间中,导致图像和文本信息的复杂交织,这对于保留身份和语义一致性都带来了挑战。为了解决这个问题,我们提出了Infinite-ID,这是一种身份-语义解耦的范例,用于身份保留的个性化。具体而言,我们引入了身份增强训练,将额外的图像交叉注意力模块纳入其中,以捕捉足够的身份信息,同时停用扩散模型的原始文本交叉注意力模块。这确保图像流忠实地表示参考图像提供的身份,同时减轻了来自文本输入的干扰。此外,我们引入了一个特征交互机制,将混合注意力模块与AdaIN-mean操作相结合,无缝地融合两个流。这种机制不仅增强了身份的保真度和语义一致性,还可以方便地控制生成图像的风格。在原始照片生成和风格图像生成方面的广泛实验结果证明了我们提出的方法的优越性。
-
- 图表
- 解决问题论文旨在解决身份保留的个性化生成中存在的身份信息和语义一致性之间的复杂交互问题。
- 关键思路提出了一种ID-语义解耦范式,即Infinite-ID,通过引入图像交叉关注模块来捕获足够的身份信息,同时关闭扩散模型的原始文本交叉关注模块,从而确保图像流忠实地表示参考图像提供的身份,同时减轻文本输入的干扰。此外,引入了特征交互机制,将混合关注模块与AdaIN-mean操作相结合,无缝地融合两个流,提高了身份的保真度和语义一致性,并且能够方便地控制生成图像的风格。
- 其它亮点论文在原始照片生成和风格图像生成方面进行了广泛的实验,证明了所提出方法的卓越性能。实验使用了哪些数据集和开源代码没有提及。
- 在最近的研究中,也有一些相关的工作,例如:《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流