Improving Diffusion Models for Virtual Try-on

简介

本文研究基于图像的虚拟试穿技术，即在给定描述人和服装的一对图像的情况下，渲染出一个人穿着精选服装的图像。先前的研究利用现有的基于样本的修补扩散模型来进行虚拟试穿，以提高生成的视觉效果的自然度，但它们未能保留服装的身份。为了克服这个限制，我们提出了一种新的扩散模型，可以提高服装的准确性并生成真实的虚拟试穿图像。我们的方法被称为IDM-VTON，使用两个不同的模块来编码服装图像的语义；在扩散模型的基本UNet中，1）从视觉编码器提取的高级语义被融合到交叉注意力层中，然后2）从并行UNet提取的低级特征被融合到自我注意力层中。此外，我们提供了详细的文本提示，以增强生成视觉效果的真实性，包括服装和人物图像。最后，我们提供了一种使用人物-服装图像对进行定制的方法，可以显著提高准确性和真实性。我们的实验结果表明，我们的方法在保留服装细节和生成真实的虚拟试穿图像方面优于以前的方法（包括基于扩散和基于GAN的方法），在定性和定量方面都表现出色。此外，所提出的定制方法在实际场景中证明了其有效性。
图表
解决问题

本文旨在解决虚拟试穿中存在的问题，即如何在保留服装细节的同时生成真实的虚拟试穿图像。
关键思路

本文提出了一种新的扩散模型，称为IDM-VTON，它使用两个不同的模块来编码服装图像的语义，并提供了详细的文本提示，以增强生成图像的真实性。
其它亮点

本文的实验结果表明，IDM-VTON方法在保留服装细节和生成真实的虚拟试穿图像方面优于以前的方法。此外，本文提出的定制方法在现实场景中也证明了其有效性。
相关研究

最近的相关研究包括基于扩散模型和基于GAN的虚拟试穿方法。例如，论文中提到的以前的例子为基础的扩散模型方法。

Improving Diffusion Models for Virtual Try-on

评论