ViViD: Video Virtual Try-on using Diffusion Models

简介

视频虚拟试穿旨在将服装项目转移到目标人物的视频上。直接将基于图像的试穿技术以逐帧的方式应用于视频领域会导致时间不一致的结果，而以前的基于视频的试穿解决方案只能生成低视觉质量和模糊的结果。在这项工作中，我们提出了ViViD，一种采用强大扩散模型来处理视频虚拟试穿任务的新框架。具体而言，我们设计了服装编码器来提取细粒度的服装语义特征，引导模型捕捉服装细节并通过提出的注意力特征融合机制将其注入到目标视频中。为了确保空间-时间一致性，我们引入了轻量级姿势编码器来编码姿势信号，使模型能够学习服装和人体姿势之间的相互作用，并将分层的时间模块插入到文本到图像稳定扩散模型中，以实现更连贯和逼真的视频合成。此外，我们收集了一个新的数据集，该数据集是迄今为止用于视频虚拟试穿任务的最大、最具多样性的服装类型和最高分辨率的数据集。广泛的实验表明，我们的方法能够产生令人满意的视频试穿结果。数据集、代码和权重将公开提供。项目页面：https://becauseimbatman0.github.io/ViViD。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频虚拟试穿中的时序不一致性和低视觉质量问题，提出了一种基于扩散模型的新框架ViViD。
关键思路

ViViD框架采用了多种模块，包括服装编码器、姿态编码器、注意力特征融合机制和层次化的时间模块等，以提高视频虚拟试穿的时空一致性和视觉质量。
其它亮点

论文提出的ViViD框架在视频虚拟试穿任务中表现出色，作者还公开了自己收集的最大、最多样化、最高分辨率的数据集，并提供了代码和权重文件。
相关研究

在相关研究中，最近也有一些基于深度学习的视频虚拟试穿的工作，如CP-VTON、VITON等。

ViViD: Video Virtual Try-on using Diffusion Models

提问交流

提问交流