PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control

向作者提问

NEW

简介

本文介绍了PoseCrafter，这是一种基于灵活姿态控制的个性化视频生成的一次性方法。我们在Stable Diffusion和ControlNet的基础上，精心设计了推理过程，以产生高质量的视频，而无需相应的真实帧。首先，我们从训练视频中选择一个适当的参考帧，并将其反转以初始化所有潜在变量以进行生成。然后，我们通过经过训练的时间注意力模块将相应的训练姿势插入目标姿势序列中，以增强忠实度。此外，为了缓解训练视频和推理姿势之间的差异导致的面部和手部退化，我们通过涉及面部和手部标志的仿射变换矩阵实现简单的潜在编辑。在几个数据集上进行的广泛实验表明，PoseCrafter在8个常用指标下优于预先训练大量视频的基线模型。此外，PoseCrafter可以遵循来自不同个体或人工编辑的姿势，并同时保留开放域训练视频中的人类身份。我们的项目页面位于https://ml-gsai.github.io/PoseCrafter-demo/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PoseCrafter试图解决的问题是生成个性化视频的问题，尤其是在控制灵活姿势的情况下。这是否是一个新问题？
关键思路

论文的关键思路是使用Stable Diffusion和ControlNet来设计一个推理过程，以在没有相应的真实帧的情况下生成高质量的视频。具体地，论文使用一个合适的参考帧来初始化所有的潜在变量，并通过一个训练有素的时间注意力模块来增强忠实度。此外，论文还通过仿射变换矩阵实现了简单的潜在编辑，以减轻由于训练视频的姿势与推理姿势之间的差异而导致的面部和手部退化。
其它亮点

论文的亮点包括：1）在没有相应真实帧的情况下生成高质量的个性化视频；2）通过时间注意力模块增强了生成视频的忠实度；3）通过仿射变换矩阵实现了简单的潜在编辑，减轻了面部和手部退化。论文使用了几个数据集，并在8个常用指标下优于预训练的基线。此外，PoseCrafter还可以同时跟随来自不同个体或人工编辑的姿势，并保留开放域训练视频中的人类身份。论文的代码和项目页面也已经开源。
相关研究

最近在这个领域的相关研究包括：1）使用GAN模型生成个性化视频；2）使用变分自编码器生成视频；3）使用流模型生成视频。其中一些相关研究的论文标题包括：“Few-Shot Video-to-Video Synthesis”和“Deep Video Portraits”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问