OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

向作者提问

NEW

简介

个性化是文本到图像生成中一个重要的话题，特别是具有挑战性的多概念个性化。当前的多概念方法在保持身份特征、遮挡和前景背景协调方面存在困难。在这项工作中，我们提出了OMG，一种遮挡友好的个性化生成框架，旨在将多个概念无缝地集成到单个图像中。我们提出了一种新颖的两阶段采样解决方案。第一阶段负责布局生成和视觉理解信息收集，以处理遮挡。第二个阶段利用获取的视觉理解信息和设计的噪声混合来集成多个概念，同时考虑遮挡。我们还观察到，噪声混合的初始去噪时间步是保持身份特征和布局的关键。此外，我们的方法可以与各种单概念模型结合使用，如LoRA和InstantID，无需额外调整。特别是，可以直接利用civitai.com上的LoRA模型。广泛的实验表明，OMG在多概念个性化方面表现出优越的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决文本到图像生成中的个性化问题，特别是多概念个性化，包括身份保护、遮挡和前景与背景之间的协调。该问题是一个新问题。
关键思路

本文提出了一种名为OMG的个性化生成框架，旨在无缝地将多个概念集成到单个图像中。该框架采用了一种新颖的两阶段采样解决方案，第一阶段负责布局生成和视觉理解信息收集，以处理遮挡。第二阶段利用获取的视觉理解信息和设计的噪声混合来集成多个概念，同时考虑遮挡。本文还观察到噪声混合的初始化去噪时间步是保持身份保护和布局的关键。此外，本方法可以与各种单概念模型结合使用，例如LoRA和InstantID，无需额外调整。尤其是，LoRA模型可以直接在civitai.com上使用。实验结果表明，OMG在多概念个性化方面表现出优异的性能。
其它亮点

本文的亮点包括采用了一种新颖的两阶段采样解决方案来处理遮挡和集成多个概念、观察到噪声混合的初始化去噪时间步是保持身份保护和布局的关键、与各种单概念模型结合使用、实验结果表明OMG在多概念个性化方面表现出优异的性能。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《A Style-Based Generator Architecture for Generative Adversarial Networks》、《Generative Adversarial Networks》、《Progressive Growing of GANs for Improved Quality, Stability, and Variation》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问