OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

2024年03月04日
  • 简介
    我们提出了OOTDiffusion,这是一种新颖的网络架构,用于实现逼真且可控的基于图像的虚拟试穿(VTON)。我们利用预先训练的潜在扩散模型的能力,设计了一个装备UNet来学习服装的详细特征。在没有冗余的变形过程的情况下,通过提出的装备融合在去噪UNet的自注意层中,服装特征与目标人体精确对齐。为了进一步增强可控性,我们在训练过程中引入了装备丢失,这使我们能够通过无需分类器的指导来调整服装特征的强度。我们在VITON-HD和Dress Code数据集上进行的全面实验表明,OOTDiffusion能够高效地为任意人体和服装图像生成高质量的试穿结果,在逼真性和可控性方面均优于其他VTON方法,这表明虚拟试穿取得了令人瞩目的突破。我们的源代码可在https://github.com/levihsu/OOTDiffusion获得。
  • 图表
  • 解决问题
    本论文旨在提出一种新的网络架构,名为OOTDiffusion,用于实现逼真且可控的基于图像的虚拟试穿(VTON),并验证其有效性。这是一个新的问题。
  • 关键思路
    论文的关键思路是利用预训练的潜在扩散模型的能力,设计一个Outfitting UNet来学习服装细节特征。通过在去噪UNet的自注意力层中提出的Outfitting Fusion,无需冗余的变形过程,将服装特征精确地与目标人体对齐。为了进一步增强可控性,论文引入了Outfitting Dropout到训练过程中,通过无需分类器的指导,使我们能够调整服装特征的强度。
  • 其它亮点
    论文在VITON-HD和Dress Code数据集上进行了全面的实验,证明OOTDiffusion能够高效地生成任意人体和服装图像的高质量试穿结果,并在逼真性和可控性方面优于其他VTON方法,这是虚拟试穿领域的一个重要突破。论文的源代码已经开源。
  • 相关研究
    最近的相关研究包括:1. CP-VTON: Clothing Shape and Texture Preserving Image-Based Virtual Try-On;2. VITON: An Image-Based Virtual Try-On Network;3. Toward Characteristic-Preserving Image-Based Virtual Try-On Network。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论