MegActor: Harness the Power of Raw Video for Vivid Portrait Animation

2024年05月31日
  • 简介
    尽管在肖像动画领域,原始驾驶视频包含比诸如面部特征点等中间表现形式更丰富的面部表情信息,但它们很少成为研究的主题。这是由于原始视频驱动的肖像动画存在两个固有挑战:1)显著的身份泄漏;2)无关的背景和面部细节(如皱纹)会降低性能。为了利用原始视频的力量进行生动的肖像动画,我们提出了一种先驱性的条件扩散模型,称为MegActor。首先,我们引入了一个合成数据生成框架,用于创建具有一致运动和表情但不一致ID的视频,以缓解ID泄漏问题。其次,我们分割了参考图像的前景和背景,并采用CLIP对背景细节进行编码。然后,通过文本嵌入模块将这些编码信息集成到网络中,从而确保背景的稳定性。最后,我们进一步将参考图像的外观风格转移到驾驶视频中,以消除驾驶视频中面部细节的影响。我们的最终模型仅在公共数据集上进行了训练,达到了与商业模型相当的结果。我们希望这将有助于开源社区。代码可在https://github.com/megvii-research/MegFaceAnimate上找到。
  • 图表
  • 解决问题
    如何利用原始驾驶视频进行逼真的肖像动画,同时避免身份泄露和无关背景和面部细节的影响?
  • 关键思路
    提出了一种名为MegActor的条件扩散模型,使用合成数据生成框架来创建具有一致运动和表情但不一致ID的视频,通过分割参考图像的前景和背景并使用CLIP对背景细节进行编码,然后通过文本嵌入模块将编码信息集成到网络中,从而确保背景的稳定性。最终,将参考图像的外观风格转移至驾驶视频,消除了驾驶视频中的面部细节影响。
  • 其它亮点
    使用公共数据集训练的最终模型与商业模型相当,代码已在Github上开源。该论文提出的MegActor模型在肖像动画领域具有开创性意义。
  • 相关研究
    最近的相关研究包括:1)“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”;2)“Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search”;3)“Towards High-Fidelity Face Alignment for High-Resolution Videos via Progressive Calibration Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论