Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

向作者提问

NEW

简介

合成从语音到三维面部动画已经引起了相当大的关注。由于高质量的四维面部数据和充足的多模态标签的稀缺性，以前的方法经常受到有限的逼真度和缺乏灵活条件的影响。我们通过三部曲来解决这个挑战。我们首先介绍广义神经参数面部资产（GNPFA），这是一种高效的变分自编码器，将面部几何和图像映射到高度泛化的表情潜空间，分离表情和身份。然后，我们利用GNPFA从大量的视频中提取高质量的表情和准确的头部姿势。这呈现了M2F-D数据集，这是一个大型、多样化的、扫描级别的共话三维面部动画数据集，具有良好的情感和风格标签。最后，我们提出了Media2Face，这是GNPFA潜空间中的扩散模型，用于共话面部动画生成，接受来自音频、文本和图像的丰富多模态指导。大量实验表明，我们的模型不仅在面部动画合成方面实现了高保真度，而且扩大了三维面部动画的表现力和风格适应性范围。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决从语音合成3D面部动画的问题，尤其是在缺乏高质量4D面部数据和丰富多模态标签的情况下，如何实现高度真实和灵活的条件控制。
关键思路

本文提出了三个关键思路：1.引入GNPFA，将面部几何和图像映射到高度泛化的表达潜空间，解耦表情和身份；2.利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势，创建M2F-D数据集；3.提出Media2Face，一个在GNPFA潜空间中的扩散模型，接受来自音频、文本和图像的丰富多模态引导，用于共语言面部动画生成。
其它亮点

本文的亮点包括：1.创造了一个大规模的、多样化的、扫描级别的共语言3D面部动画数据集（M2F-D）；2.提出了一个新的面部动画生成模型（Media2Face），能够实现高保真度的面部动画合成，并扩大了表达和风格适应性的范围；3.实验结果表明，Media2Face在多个数据集上都能够取得优异的性能。
相关研究

近期的相关研究包括：1.基于深度学习的面部动画生成模型，如Deep3DFacePhoto、DF2Net、3D-Aided Generative Adversarial Networks等；2.利用语音或文本作为条件控制的面部动画生成模型，如Speech2Face、Text2Face、LipGAN等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问