VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers

向作者提问

NEW

简介

视频试穿是一个具有巨大现实潜力的领域。以前的工作仅限于将产品服装图像转移到简单姿势和背景的人物视频上，而在随意拍摄的视频上表现不佳。最近，Sora展示了扩散Transformer（DiT）在生成呈现真实场景的逼真视频方面的可扩展性。受此启发，我们探索并提出了第一个基于DiT的视频试穿框架，用于实际的野外应用，名为VITON-DiT。具体而言，VITON-DiT包括服装提取器、空间-时间去噪DiT和身份保护ControlNet。为了忠实地恢复服装细节，提取的服装特征与去噪DiT和ControlNet的自我关注输出融合。我们还在训练期间引入了新颖的随机选择策略和插值自回归（IAR）技术，在推理过程中促进长视频生成。与现有尝试需要费力且限制性的构建成对训练数据集不同，严重限制了它们的可扩展性，VITON-DiT仅依赖于未配对的人类舞蹈视频和精心设计的多阶段训练策略，从而缓解了这一问题。此外，我们策划了一个具有挑战性的基准数据集，以评估随意视频试穿的性能。广泛的实验表明，VITON-DiT在为复杂的人体姿势生成时空一致的试穿结果方面具有优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种基于Diffusion Transformer (DiT)的视频试穿框架VITON-DiT，解决现有视频试穿技术在复杂人体姿势下表现不佳的问题。
关键思路

VITON-DiT包括三个模块：服装提取器、时空去噪DiT和身份保护ControlNet。通过将提取的服装特征与去噪DiT和ControlNet的自注意力输出融合，还原服装细节。同时，采用新颖的随机选择策略和插值自回归技术，实现长视频生成。
其它亮点

本论文通过使用非配对的人体舞蹈视频和多阶段训练策略，解决了现有视频试穿技术需要大量配对数据集的问题。同时，还设计了一个具有挑战性的基准数据集来评估算法性能。实验结果表明，VITON-DiT在处理复杂人体姿势下的视频试穿任务中表现优异。
相关研究

与本论文相关的研究包括：基于GAN的视频试穿技术、基于姿势估计的视频试穿技术、基于形变网络的视频试穿技术等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问