Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos

2024年04月26日
  • 简介
    视频试穿是一项具有挑战性的任务,在以前的研究中并没有得到很好的解决。主要障碍在于同时保留服装细节和建模连贯的动作。面对这些困难,我们通过提出一种基于扩散的框架“Tunnel Try-on”来解决视频试穿问题。其核心思想是在输入视频中挖掘一个“焦点隧道”,该隧道可在服装区域周围进行特写镜头。我们放大隧道中的区域,以更好地保留服装的细节。为了生成连贯的动作,我们首先利用卡尔曼滤波器在焦点隧道中构建平滑的裁剪,并将隧道的位置嵌入到注意力层中,以提高生成视频的连续性。此外,我们还开发了一个环境编码器,以提取隧道外的上下文信息作为补充线索。配备了这些技术,Tunnel Try-on保留了服装的细节,并合成了稳定流畅的视频。Tunnel Try-on被认为是虚拟试穿在视频中商业级应用的第一次尝试,展示了显著的进步。
  • 图表
  • 解决问题
    本论文旨在解决视频虚拟试衣中的细节保留和连贯运动生成问题,提出了一种基于扩散的框架“Tunnel Try-on”。这是否是一个新问题?
  • 关键思路
    “Tunnel Try-on”框架的核心思想是在输入视频中挖掘一个“焦点隧道”,以在服装区域周围进行特写镜头。通过对隧道中的区域进行放大来更好地保留服装的细节。为了生成连贯的运动,论文首先利用Kalman滤波器在焦点隧道中构建平滑的裁剪,并将隧道的位置嵌入到注意力层中以提高生成视频的连续性。此外,论文还开发了一个环境编码器来提取隧道外的上下文信息作为补充线索。
  • 其它亮点
    论文使用了多个数据集进行实验,并展示了Tunnel Try-on的显著进展。该框架保留了服装的细节并合成了稳定平滑的视频。此外,论文还提供了开源代码。该研究的亮点包括焦点隧道和环境编码器的创新使用,以及Kalman滤波器的应用。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:DeepFashion2, CP-VTON, VITON等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论