M&M VTO: Multi-Garment Virtual Try-On and Editing

2024年06月06日
  • 简介
    我们提出了M&M VTO,这是一种混合搭配的虚拟试穿方法,它以多个服装图像、服装布局的文本描述和一个人的图像作为输入。例如,一个输入包括:一张衬衫的图像,一张裤子的图像,"卷起袖子,衬衫塞进裤子",以及一个人的图像。输出是展示这些服装(按照所需布局)在给定的人物身上的效果。我们方法的主要贡献有:1)单阶段扩散模型,无超分辨级联,可以在1024x512分辨率下混合匹配多个服装,保留和扭曲复杂的服装细节;2)架构设计(VTO UNet Diffusion Transformer)将去噪与个人特征分离,允许高效的微调策略以保留身份(每个个体的6MB模型,而使用dreambooth微调可达到4GB),解决了当前虚拟试穿方法中常见的身份丢失问题;3)通过文本输入对多个服装进行布局控制,特别是针对虚拟试穿任务在PaLI-3上进行微调。实验结果表明,M&M VTO在定性和定量上都达到了最先进的性能,并为通过语言引导和多服装试穿开辟了新的机会。
  • 图表
  • 解决问题
    本论文旨在解决虚拟试穿中的身份丢失问题,提出了一种混搭虚拟试穿方法,可以通过多种服装图像和文本描述,以及一个人的图像,生成一个可视化的虚拟试穿结果。
  • 关键思路
    论文提出了一种基于扩散的单阶段模型,通过VTO UNet Diffusion Transformer架构设计,可以将去噪和人物特征分离,从而有效地保留身份信息。此外,通过文本输入控制多种服装的布局,可以实现更加灵活的虚拟试穿。
  • 其它亮点
    该方法在保留服装细节的同时,可以进行多种服装的混搭试穿,达到了与当前最先进方法相当的效果。实验使用了PaLI-3数据集进行了验证,并开源了代码。值得进一步研究的是,如何将语言输入与虚拟试穿更加紧密地结合,以及如何进一步提高虚拟试穿的效果。
  • 相关研究
    近期相关研究包括:1)DreamBooth:A Deep Learning Framework for Virtual Try-On and Beyond;2)Towards Photo-Realistic Virtual Try-On by Adaptively Generating-Preserving Image Content;3)Diverse Virtual Try-On with a Unified Network
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论