- 简介生成情感化的说话人脸是一个实用而具有挑战性的任务。为了创建一个逼真的虚拟形象,我们从人类的角度出发,提出了两个关键见解:1)音频和非确定性的面部动态之间的联系,包括表情、眨眼、姿势等,应该呈现同步和一对多的映射关系。2)生动的表情通常伴随着情感感知的高清纹理和精细的牙齿细节。然而,现有方法常常忽视这两个方面。因此,本文提出使用归一化流和向量量化建模来同时满足这两个见解,从而生成情感化的说话人脸(FlowVQTalker)。具体而言,我们开发了一个基于流的系数生成器,将面部情感的动态编码成一个表示为混合分布的多情感类潜变量空间。生成过程从对建模分布的随机采样开始,同时伴随着音频,使得唇部同步和不确定的非语言面部线索的生成成为可能。此外,我们设计的向量量化图像生成器将表情丰富的面部图像的创建视为一项代码查询任务,利用学习到的码本提供丰富、高质量的纹理,增强结果的情感感知。我们进行了广泛的实验,展示了我们方法的有效性。
- 图表
- 解决问题论文旨在解决生成真实情感对话面部表情的问题,同时考虑音频和面部动态之间的同步关系。
- 关键思路论文提出了使用归一化流和矢量量化建模来同时满足音频和面部动态之间的同步关系以及高质量的面部纹理。
- 其它亮点论文设计了基于流的系数生成器和矢量量化图像生成器来生成真实情感对话面部表情。实验结果表明该方法的有效性。
- 最近的相关研究包括:1)使用深度学习生成面部表情的方法;2)使用GAN生成面部表情的方法;3)使用流模型生成面部表情的方法。
沙发等你来抢
去评论
评论
沙发等你来抢