MV-VTON: Multi-View Virtual Try-On with Diffusion Models

简介

图像虚拟试穿的目标是生成一个穿着给定服装的目标人物自然的图像。然而，现有的大多数方法仅关注正面试穿正面服装。当服装和人物视角显著不一致，特别是当人物视角是非正面时，结果是不令人满意的。为了解决这个挑战，我们引入了多视角虚拟试穿（MV-VTON），旨在使用给定的衣服从多个视角重建一个人的穿衣效果。一方面，考虑到单视角衣服提供的信息不足以支持MV-VTON，我们使用两个图像，即衣服的正面和背面视图，尽可能地包含完整视图。另一方面，我们采用了表现出色的扩散模型来执行MV-VTON。特别地，我们提出了一种视角自适应选择方法，其中在全局和局部的衣服特征提取中分别应用了硬选择和软选择，以确保衣服特征大致适合人物视角。随后，我们建议使用联合注意块来对齐和融合衣服特征和人物特征。此外，我们收集了一个MV-VTON数据集，即多视角服装（MVG），其中每个人都有多个具有不同视角和姿势的照片。实验表明，所提出的方法不仅在使用我们的MVG数据集进行MV-VTON任务时取得了最先进的结果，而且在使用VITON-HD和DressCode数据集进行正面视图虚拟试穿任务时也具有优越性。代码和数据集将在https://github.com/hywang2002/MV-VTON上公开发布。

图表

解决问题

MV-VTON：解决虚拟试衣在多视角时的问题

关键思路

采用多视角虚拟试衣，使用前后视图的衣服信息，结合扩散模型和自适应选择方法，使用全局和局部特征提取，使用联合注意力块对齐和融合衣服和人的特征

其它亮点

提出了MV-VTON方法，使用MVG数据集进行实验，取得了优于现有方法的结果，同时也在前视图虚拟试衣任务上取得了优越性能，开源了代码和数据集

MV-VTON: Multi-View Virtual Try-On with Diffusion Models

评论