X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention

2024年03月23日
  • 简介
    我们提出了X-Portrait,这是一种创新的有条件扩散模型,专门用于生成具有表现力和时间上连贯性的肖像动画。具体而言,我们旨在利用一个单一的肖像作为外观参考,通过从驱动视频中提取的运动来为其注入动画效果,捕捉高度动态和微妙的面部表情以及广泛的头部运动。作为其核心,我们利用预训练扩散模型的生成先验作为渲染骨架,同时在ControlNet框架内通过新颖的控制信号实现了精细的头部姿态和表情控制。与传统的粗略显式控制(如面部标志)相比,我们的运动控制模块学习直接从原始驱动RGB输入中解释动态。通过基于补丁的局部控制模块,有效地提高了对小规模细微差异(如眼球位置)的运动关注度,进一步增强了运动精度。值得注意的是,为了减轻来自驱动信号的身份泄漏,我们使用缩放增强的跨身份图像训练我们的运动控制模块,确保最大化地与外观参考模块解耦。实验结果表明,X-Portrait在各种面部肖像和表现力驱动序列中具有普遍的有效性,并展示了其在生成具有一致性身份特征的迷人肖像动画方面的熟练程度。
  • 图表
  • 解决问题
    论文旨在解决如何通过单张人像照片和运动视频生成具有表情和头部动作的人像动画的问题。这是否是一个新问题?
  • 关键思路
    论文提出了一种名为X-Portrait的条件扩散模型,利用预训练的扩散模型作为渲染骨干,通过ControlNet框架内的新型控制信号实现精细的头部姿态和表情控制。相比传统的粗略显式控制方法,该模型的运动控制模块直接从原始输入视频中学习动态信息。实验证明,该模型能够生成具有一致性身份特征和吸引力的人像动画。
  • 其它亮点
    论文的亮点包括使用控制信号实现精细的头部姿态和表情控制、使用局部控制模块增强运动关注度、使用跨身份图像训练运动控制模块以减少身份泄漏等。实验使用了多个数据集,包括CelebA-HQ、VoxCeleb2和GRID等,并在多个评估指标上进行了比较。论文的代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究被进行,例如《Few-Shot Face Animation via Pre-Trained StyleGAN and Contrastive Learning》、《Image2StyleGAN++: How to Edit the Embedded Images?》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论