MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer

简介

在这项工作中，我们提出了MagicDance，这是一个基于扩散的模型，用于在具有挑战性的人类舞蹈视频上进行二维人体运动和面部表情转移。具体而言，我们旨在生成任何目标身份驱动的人类舞蹈视频，同时保持身份不变，而这些身份由新颖的姿势序列驱动。为此，我们提出了一个两阶段的训练策略，以分离人类动作和外观（例如面部表情、肤色和着装），包括对同一数据集的人类舞蹈姿势进行外观控制块的预训练和外观-姿势-关节控制块的微调。我们的新颖设计使得外观控制具有时间上的一致性，包括上半身、面部属性甚至背景。该模型还通过利用图像扩散模型的先验知识，在未见过的人类身份和复杂运动序列上具有很好的泛化能力，而不需要使用具有不同人类属性的额外数据进行微调。此外，所提出的模型易于使用，可以作为Stable Diffusion的插件模块/扩展。我们还展示了该模型在零样本2D动画生成方面的能力，不仅允许从一个身份转移外观到另一个身份，还可以在仅有姿势输入的情况下进行卡通化风格化。广泛的实验证明了我们在TikTok数据集上的卓越表现。
图表
解决问题

本篇论文旨在提出一种基于扩散的模型，实现在具有挑战性的人类舞蹈视频中进行2D人体运动和面部表情转移，使得生成的舞蹈视频能够以任何目标身份为驱动，同时保持身份不变。这是否是一个新问题？
关键思路

本文提出了一个两阶段训练策略，旨在解开人类运动和外观（例如面部表情、肤色和着装）之间的联系，包括对外观控制块的预训练和对外观-姿势-关节控制块的微调。这种新颖的设计使得模型能够进行强大的外观控制，并具有时间上的一致性，同时还能够很好地推广到未见过的人类身份和复杂的运动序列，而不需要使用多样化的人类属性的额外数据进行微调。
其它亮点

本文的亮点包括：1. 提出了一种基于扩散的模型，实现在具有挑战性的人类舞蹈视频中进行2D人体运动和面部表情转移；2. 采用了两阶段训练策略，解开人类运动和外观之间的联系；3. 实现了强大的外观控制，并具有时间上的一致性；4. 可以很好地推广到未见过的人类身份和复杂的运动序列；5. 实现了零样本2D动画生成；6. 在TikTok数据集上表现出了优异的性能。本文使用了TikTok数据集，没有开源代码。值得进一步研究的工作包括如何将该模型应用于其他领域。
相关研究

在这个领域中，最近的相关研究包括：1.《Deep Video Portraits》；2.《Everybody Dance Now》；3.《Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论