- 简介实现对多个面部动作的分离控制和适应多样化的输入模式,可以极大地增强说话头部生成的应用和娱乐价值。这需要对面部特征的解耦空间进行深入探索,确保它们a)独立运行而不相互干扰,b)可以保存并与不同的模态输入共享,这两个方面在现有方法中经常被忽略。为了解决这个问题,本文提出了一种新颖的高效解耦框架,用于说话头部生成(EDTalk)。我们的框架可以在视频或音频输入的条件下,分别操纵嘴部形状、头部姿势和情感表达。具体而言,我们使用三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴部、姿势和表情。每个空间都由一组可学习的基础特征组成,它们的线性组合定义了特定的动作。为了确保独立性并加速训练,我们在基础特征之间强制实现正交,并设计了一种高效的训练策略,以将动作责任分配给每个空间,而不依赖于外部知识。然后将学习到的基础特征存储在相应的库中,以实现与音频输入的共享视觉先验。此外,考虑到每个空间的特性,我们提出了一个音频到动作模块,用于音频驱动的说话头部合成。实验结果证明了EDTalk的有效性。我们建议观看项目网站:https://tanshuai0219.github.io/EDTalk/。
-
- 图表
- 解决问题论文旨在解决多种面部动作的解耦控制和不同输入模式的适应性问题,提高语音头生成的应用和娱乐性。
- 关键思路论文提出了一种新的高效解耦框架(EDTalk),通过三个轻量级模块将面部动态分解成三个独立的潜在空间,分别表示嘴部形状、头部姿态和情感表达,每个空间都由一组可学习的基组成,其线性组合定义了特定的运动。
- 其它亮点论文通过实验展示了EDTalk的有效性,并提出了一种基于音频的语音头合成模块。论文还开源了代码,并提供了项目网站。
- 最近的相关研究包括:《StarGAN V2: Diverse Image Synthesis for Multiple Domains》、《Deep Video Portrait》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流