RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

2024年06月26日
  • 简介
    在计算机视觉领域中,生成与音频同步的通用人脸是一项具有挑战性的任务。以往的方法在音视频同步方面取得了显著进展,但当前结果与实际应用之间仍存在显著差距。面临的挑战有两个方面:1)保留独特的个体特征以实现高精度的唇形同步。2)在实时性能下生成高质量的面部渲染。本文提出了一种新的通用音频驱动框架RealTalk,包括音频到表情转换器和高保真表情到面部渲染器。在第一个组件中,我们考虑与说话唇部运动相关的身份和个人内部变化特征。通过在丰富的面部先验上融入跨模态注意力,我们可以有效地将唇形运动与音频对齐,从而实现更精确的表情预测。在第二个组件中,我们设计了一个轻量级的面部身份对齐(FIA)模块,包括唇形控制结构和面部纹理参考结构。这种新颖的设计使我们能够实时生成细节,而不依赖于复杂和低效的特征对齐模块。我们在公共数据集上进行了定量和定性实验,结果清楚地表明我们的方法在唇语同步和生成质量方面具有明显优势。此外,我们的方法高效且需要较少的计算资源,非常适合满足实际应用的需求。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决音频驱动的面部生成中的两个挑战:保留个体特征以实现高精度的唇同步,以及在实时性能下生成高质量的面部渲染。
  • 关键思路
    论文提出了一个新的音频驱动框架RealTalk,包括一个音频到表情转换器和一个高保真度的表情到面部渲染器。在第一个组件中,作者考虑了与说话唇部运动相关的身份和个人内部变异特征,并通过在丰富的面部先验知识上引入跨模态注意力,有效地将唇部运动与音频对齐,从而实现更高的表情预测精度。在第二个组件中,作者设计了一个轻量级的面部身份对齐模块,包括唇形控制结构和面部纹理参考结构。这种新颖的设计使得可以在实时性能下生成细节,而不依赖于复杂和低效的特征对齐模块。
  • 其它亮点
    论文的实验结果在公共数据集上进行了定量和定性的评估,展示了方法在唇语同步和生成质量方面的明显优势。此外,该方法高效且需要较少的计算资源,非常适合实际应用。论文还开源了代码。
  • 相关研究
    与本论文相关的研究包括:1)使用深度学习方法实现音频驱动的面部生成;2)使用注意力机制提高唇语同步的精度;3)使用GAN等方法提高面部生成的质量。其中,一些相关论文包括:《Deep Audio-Visual Facial Animation》、《Attentional Generative Adversarial Network for Audio-Driven Facial Animation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问