WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models

2024年07月15日
  • 简介
    视频虚拟试穿旨在生成真实的序列,保持服装的身份,并适应源视频中人物的姿势和身形。传统的基于图像的方法依赖于变形和融合,在处理复杂的人类动作和遮挡时存在困难,限制了它们在视频试穿应用中的有效性。此外,基于视频的模型需要大量高质量的数据和实际的计算资源。为了解决这些问题,我们将视频试穿重新构想为一种基于服装描述和人体运动生成视频的过程。我们的解决方案WildVidFit采用基于图像的受控扩散模型,实现了一种简化的单阶段方法。该模型基于特定的服装和个体进行训练,而不是基于视频。它利用预训练模型的扩散指导,包括视频掩码自编码器以改善段落平滑性和自监督模型以在潜在空间中对相邻帧进行特征对齐。这种整合显著提高了模型的维持时间上的连贯性的能力,从而在基于图像的框架内实现更有效的视频试穿。我们在VITON-HD和DressCode数据集上的实验以及对VVT和TikTok数据集的测试表明,WildVidFit能够生成流畅和连贯的视频。该项目的网页链接为wildvidfit-project.github.io。
  • 图表
  • 解决问题
    本论文旨在解决视频虚拟试衣中的复杂人体动作和遮挡问题,以及数据和计算资源要求高的问题。
  • 关键思路
    论文提出了一种基于图像的控制扩散模型,将视频虚拟试衣重新概念化为基于服装描述和人体动作生成视频的过程。该模型在静态图像上进行训练,利用预先训练的模型进行扩散引导,从而提高了模型的时序连贯性。
  • 其它亮点
    论文在VITON-HD和DressCode数据集上进行了实验,并在VVT和TikTok数据集上进行了测试,证明了WildVidFit生成流畅一致的视频的能力。该项目还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Towards Photo-Realistic Virtual Try-On by Adaptively Generating↵and Embedding Clothing Images》、《Dressing Up: Clothing Generation and Manipulation with GANs》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论