Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

2024年01月28日
  • 简介
    合成从语音到三维面部动画已经引起了相当大的关注。由于高质量的四维面部数据和充足的多模态标签的稀缺性,以前的方法经常受到有限的逼真度和缺乏灵活条件的影响。我们通过三部曲来解决这个挑战。我们首先介绍广义神经参数面部资产(GNPFA),这是一种高效的变分自编码器,将面部几何和图像映射到高度泛化的表情潜空间,分离表情和身份。然后,我们利用GNPFA从大量的视频中提取高质量的表情和准确的头部姿势。这呈现了M2F-D数据集,这是一个大型、多样化的、扫描级别的共话三维面部动画数据集,具有良好的情感和风格标签。最后,我们提出了Media2Face,这是GNPFA潜空间中的扩散模型,用于共话面部动画生成,接受来自音频、文本和图像的丰富多模态指导。大量实验表明,我们的模型不仅在面部动画合成方面实现了高保真度,而且扩大了三维面部动画的表现力和风格适应性范围。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决从语音合成3D面部动画的问题,尤其是在缺乏高质量4D面部数据和丰富多模态标签的情况下,如何实现高度真实和灵活的条件控制。
  • 关键思路
    本文提出了三个关键思路:1.引入GNPFA,将面部几何和图像映射到高度泛化的表达潜空间,解耦表情和身份;2.利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,创建M2F-D数据集;3.提出Media2Face,一个在GNPFA潜空间中的扩散模型,接受来自音频、文本和图像的丰富多模态引导,用于共语言面部动画生成。
  • 其它亮点
    本文的亮点包括:1.创造了一个大规模的、多样化的、扫描级别的共语言3D面部动画数据集(M2F-D);2.提出了一个新的面部动画生成模型(Media2Face),能够实现高保真度的面部动画合成,并扩大了表达和风格适应性的范围;3.实验结果表明,Media2Face在多个数据集上都能够取得优异的性能。
  • 相关研究
    近期的相关研究包括:1.基于深度学习的面部动画生成模型,如Deep3DFacePhoto、DF2Net、3D-Aided Generative Adversarial Networks等;2.利用语音或文本作为条件控制的面部动画生成模型,如Speech2Face、Text2Face、LipGAN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问