FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization

2024年03月11日
  • 简介
    生成情感化的说话人脸是一个实际而又具有挑战性的任务。为了创建一个逼真的虚拟形象,我们从人类的角度出发,提出了两个关键洞见:1)音频和面部非确定性动态之间的联系,包括表情、眨眼、姿态等,应该表现出同步和一对多的映射关系。2)生动的表情通常伴随着具有情感意识的高清纹理和精细的牙齿。然而,这两个方面经常被现有方法忽视。因此,本文提出使用归一化流和矢量量化建模来同时满足这两个关键点,以生成情感化的说话人脸(FlowVQTalker)。具体而言,我们开发了一个基于流的系数生成器,将面部情感的动态编码为表示为混合分布的多情感类潜空间。生成过程从对模型分布的随机采样开始,由伴随的音频指导,实现了唇部同步和不确定的非语言面部线索的生成。此外,我们设计的矢量量化图像生成器将表情丰富的面部图像的创建视为代码查询任务,利用学习的码本提供丰富、高质量的纹理,增强了结果的情感感知。我们进行了大量实验,展示了我们方法的有效性。
  • 图表
  • 解决问题
    本论文旨在解决生成具有情感表情的说话人脸的问题,同时考虑到音频和面部动态之间的关联性,并提出了一种新的解决方案。
  • 关键思路
    论文提出了FlowVQTalker方法,使用归一化流和向量量化建模来生成情感说话人脸。具体而言,采用流式系数生成器将面部表情动态编码为多情感类别潜在空间,再结合音频进行生成。同时,使用向量量化图像生成器将生成表情丰富的面部图像视为代码查询任务,利用学习到的码本提供丰富的高质量纹理。
  • 其它亮点
    论文的亮点在于提出了一种同时考虑音频和面部动态的生成方法,并使用向量量化技术提供高质量纹理。实验结果表明,该方法在生成情感说话人脸方面具有很好的效果。
  • 相关研究
    在相关研究方面,最近的一些研究包括《Deep Video Portraits》、《Talking Heads》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论