IMAGDressing-v1: Customizable Virtual Dressing

2024年07月17日
  • 简介
    最新的技术通过使用潜在扩散模型和局部服装修补实现了逼真的虚拟试穿(VTON),大大提高了消费者的在线购物体验。然而,现有的VTON技术忽视了商家全面展示服装的需求,包括对服装、可选面部、姿势和场景的灵活控制。为了解决这个问题,我们定义了一个虚拟试衣(VD)任务,旨在生成可自由编辑的人体图像,固定服装和可选条件。同时,我们设计了一个综合的亲和度指标(CAMI),用于评估生成图像与参考服装之间的一致性。然后,我们提出了IMAGDressing-v1,它包括一个服装UNet,从CLIP中捕获语义特征和从VAE中捕获纹理特征。我们提出了一个混合注意力模块,包括一个冻结的自注意力和一个可训练的交叉注意力,将服装UNet中的服装特征集成到冻结去噪UNet中,确保用户可以通过文本控制不同的场景。IMAGDressing-v1可以与其他扩展插件(例如ControlNet和IP-Adapter)结合使用,以增强生成图像的多样性和可控性。此外,为了解决数据缺乏的问题,我们发布了互动服装配对(IGPair)数据集,其中包含超过30万对服装和着装图像,并建立了一个标准的数据组装流程。广泛的实验表明,我们的IMAGDressing-v1在各种受控条件下实现了最先进的人体图像合成性能。代码和模型将在https://github.com/muzishen/IMAGDressing上提供。
  • 图表
  • 解决问题
    论文旨在解决虚拟试衣技术中商家展示服装的全面性和可控性不足的问题,提出了一种虚拟换装(VD)任务,以生成可自由编辑的人体图像和固定的服装以及可选条件。
  • 关键思路
    论文提出了一种混合注意力模块,将服装的语义特征和纹理特征融合到一个冻结的去噪UNet中,确保用户可以通过文本控制不同的场景,从而实现虚拟换装。
  • 其它亮点
    论文设计了综合亲和度度量指标(CAMI)来评估生成图像和参考服装之间的一致性,并提出了IMAGDressing-v1,该模型结合了从CLIP中提取的语义特征和从VAE中提取的纹理特征的服装UNet。此外,论文还发布了交互式服装配对(IGPair)数据集,并建立了标准的数据组装流程。
  • 相关研究
    近期在这个领域中的相关研究包括:《Learning to Dress 3D People in Generative Clothing》、《DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论