OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

简介

我们提出了OOTDiffusion，这是一种新颖的网络架构，用于实现逼真且可控的基于图像的虚拟试穿（VTON）。我们利用预先训练的潜在扩散模型的能力，设计了一个装备UNet来学习服装的详细特征。在没有冗余的变形过程的情况下，通过提出的装备融合在去噪UNet的自注意层中，服装特征与目标人体精确对齐。为了进一步增强可控性，我们在训练过程中引入了装备丢失，这使我们能够通过无需分类器的指导来调整服装特征的强度。我们在VITON-HD和Dress Code数据集上进行的全面实验表明，OOTDiffusion能够高效地为任意人体和服装图像生成高质量的试穿结果，在逼真性和可控性方面均优于其他VTON方法，这表明虚拟试穿取得了令人瞩目的突破。我们的源代码可在https://github.com/levihsu/OOTDiffusion获得。
图表
解决问题

本论文旨在提出一种新的网络架构，名为OOTDiffusion，用于实现逼真且可控的基于图像的虚拟试穿（VTON），并验证其有效性。这是一个新的问题。
关键思路

论文的关键思路是利用预训练的潜在扩散模型的能力，设计一个Outfitting UNet来学习服装细节特征。通过在去噪UNet的自注意力层中提出的Outfitting Fusion，无需冗余的变形过程，将服装特征精确地与目标人体对齐。为了进一步增强可控性，论文引入了Outfitting Dropout到训练过程中，通过无需分类器的指导，使我们能够调整服装特征的强度。
其它亮点

论文在VITON-HD和Dress Code数据集上进行了全面的实验，证明OOTDiffusion能够高效地生成任意人体和服装图像的高质量试穿结果，并在逼真性和可控性方面优于其他VTON方法，这是虚拟试穿领域的一个重要突破。论文的源代码已经开源。
相关研究

最近的相关研究包括：1. CP-VTON: Clothing Shape and Texture Preserving Image-Based Virtual Try-On；2. VITON: An Image-Based Virtual Try-On Network；3. Toward Characteristic-Preserving Image-Based Virtual Try-On Network。

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

评论