MV-VTON: Multi-View Virtual Try-On with Diffusion Models

2024年04月26日
  • 简介
    图像虚拟试穿的目标是生成一个穿着给定服装的目标人物自然形象的图像。然而,大多数现有方法仅关注正面试穿,使用正面服装。当服装和人物的视角显著不一致,特别是当人物视角为非正面时,结果是令人不满意的。为了解决这个挑战,我们引入了多视角虚拟试穿(MV-VTON),旨在使用给定的服装从多个视角重建人物的着装结果。一方面,由于单视角服装提供的信息不足以支持MV-VTON,我们改为使用两张图像,即服装的正面和背面视图,尽可能地包含完整视图。另一方面,我们采用了表现出色的扩散模型来执行MV-VTON。特别是,我们提出了一种视角自适应选择方法,将硬选择和软选择应用于全局和局部服装特征提取,以确保服装特征大致适合人物的视角。随后,我们建议使用联合注意块来对齐和融合服装特征和人物特征。此外,我们收集了一个MV-VTON数据集,即多视角服装(MVG),其中每个人都有多个具有不同视角和姿势的照片。实验表明,所提出的方法不仅在使用我们的MVG数据集进行MV-VTON任务时取得了最先进的结果,而且在使用VITON-HD和DressCode数据集进行正面视图虚拟试穿任务时也具有优越性。代码和数据集将在 https://github.com/hywang2002/MV-VTON 上公开发布。
  • 图表
  • 解决问题
    本论文旨在解决虚拟试衣技术中,单一视角下衣服和人物视角不一致时的问题。作者提出了一种多视角虚拟试衣技术。
  • 关键思路
    论文中的关键思路是采用两张衣服的正反视角图像来尽可能涵盖完整视角,并采用扩散模型进行多视角虚拟试衣。同时,提出了视角自适应选择方法和联合注意力块来对齐和融合衣服和人物特征。
  • 其它亮点
    论文提出了一种新的多视角虚拟试衣技术,实验使用了作者自己收集的数据集Multi-View Garment (MVG),并在MV-VTON任务和VITON-HD以及DressCode数据集上都取得了最先进的结果。作者将代码和数据集公开发布。
  • 相关研究
    在这个领域中,最近的相关研究包括DeepFashion2、CP-VTON和CP-VTON+等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论