- 简介我们提出了Magic Clothing,这是一个基于潜在扩散模型(LDM)的网络架构,用于一个未被开发的以服装为驱动的图像合成任务。旨在生成穿着目标服装的定制化角色,并具有多样化的文本提示,图像的可控性是最关键的问题,即保留服装细节并保持对文本提示的忠实性。为此,我们引入了一个服装提取器来捕捉详细的服装特征,并采用自注意力融合将其并入预训练的LDM中,确保目标角色上的服装细节保持不变。然后,我们利用联合无分类器指导来平衡对生成结果的服装特征和文本提示的控制。同时,所提出的服装提取器是一个可应用于各种微调LDM的插件模块,可以与其他扩展如ControlNet和IP-Adapter相结合,以增强生成角色的多样性和可控性。此外,我们设计了Matched-Points-LPIPS(MP-LPIPS),这是一个用于评估目标图像与源服装一致性的强大指标。大量实验表明,我们的Magic Clothing在服装驱动的图像合成的各种条件控制下取得了最先进的结果。我们的源代码可在https://github.com/ShineChen1024/MagicClothing上获得。
-
- 图表
- 解决问题提出一种基于潜在扩散模型(LDM)的网络架构,名为Magic Clothing,用于生成穿着目标服装的定制角色,并保持服装细节和文本提示的忠实性。
- 关键思路通过引入服装提取器捕捉详细的服装特征,并采用自注意力融合将其合并到预训练的LDM中,确保目标角色上的服装细节保持不变。同时,利用联合无分类器指导来平衡对生成结果的服装特征和文本提示的控制。此外,Magic Clothing还可以与其他扩展组件结合使用,如ControlNet和IP-Adapter,以增强生成角色的多样性和可控性。
- 其它亮点论文设计了一个称为Matched-Points-LPIPS(MP-LPIPS)的鲁棒度量标准,用于评估目标图像与源服装的一致性。实验结果表明,在各种条件控制下,Magic Clothing实现了最先进的服装驱动图像合成结果。论文的源代码已经开源。
- 最近的相关研究包括:1.《Learning to Dress: Synthesize People in Clothing from a Single Shot》 2.《Towards High-Fidelity Face Manipulation Generation with Progressive Structural Perceptual Network》 3.《Controllable Person Image Synthesis with Attribute-Decomposed GAN》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流