InstantID: Zero-shot Identity-Preserving Generation in Seconds

简介

在个性化图像生成方面，如Textual Inversion、DreamBooth和LoRA等方法取得了显著进展。然而，它们在现实世界中的适用性受到高存储需求、漫长的微调过程和需要多个参考图像的限制。相比之下，现有的基于ID嵌入的方法虽然只需要单个前向推理，但也面临着挑战：它们要么需要在许多模型参数上进行广泛的微调，要么缺乏与社区预训练模型的兼容性，要么无法保持高质量的面部保真度。针对这些限制，我们介绍了InstantID，这是一种基于强大扩散模型的解决方案。我们的即插即用模块可以使用单个面部图像，灵活处理各种风格的图像个性化，同时确保高保真度。为了实现这一目标，我们设计了一种新颖的IdentityNet，通过施加强大的语义和弱空间条件，将面部和标志图像与文本提示集成，来控制图像生成。InstantID展现了出色的性能和效率，在重视身份保护的实际应用中具有极大的益处。此外，我们的工作与流行的预训练文本到图像扩散模型（如SD1.5和SDXL）无缝集成，作为一个可适应的插件。我们的代码和预训练检查点将在https://github.com/InstantID/InstantID上提供。
作者讲解·4
- 讲解视频
- 相关报道(4)
图表
解决问题

InstantID论文旨在解决个性化图像合成的存储需求高、微调时间长、需要多个参考图像等问题，提出了一种使用单个面部图像实现图像个性化的解决方案。
关键思路

InstantID通过设计一种新的IdentityNet，将面部和地标图像与文本提示相结合，以引导图像生成，实现高保真度的图像个性化处理。
其它亮点

InstantID在多种风格下使用单个面部图像实现了高保真度的图像个性化处理，具有出色的性能和效率，并且可以无缝地与流行的预训练文本到图像扩散模型集成。
相关研究

最近在这个领域中，还有一些相关的研究，如Textual Inversion、DreamBooth和LoRA等。

InstantID: Zero-shot Identity-Preserving Generation in Seconds

提问交流

提问交流