Faces that Speak: Jointly Synthesising Talking Face and Speech from Text

2024年05月16日
  • 简介
    本研究的目标是同时从文本生成自然的说话面部和语音输出。我们通过将Talking Face Generation(TFG)和Text-to-Speech(TTS)系统集成到一个统一的框架中来实现这一目标。我们解决了每个任务的主要挑战:(1)生成代表实际场景的一系列头部姿势,和(2)确保同一身份的面部运动变化时声音的一致性。为了解决这些问题,我们引入了一种基于条件流匹配的运动采样器,能够以高效的方式生成高质量的运动代码。此外,我们还引入了一种新的TTS系统调节方法,它利用从TFG模型中去除运动的特征来产生统一的语音输出。我们的广泛实验表明,我们的方法能够有效地创建自然的说话面部和准确匹配输入文本的语音。据我们所知,这是第一个能够推广到未见过身份的多模态合成系统的努力。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在同时生成自然的说话面部和文本的语音输出。作者试图解决头部姿势多样性和声音一致性的问题,以此来提高多模态合成的质量。
  • 关键思路
    本文提出了一种基于条件流匹配的运动采样器,能够高效地生成高质量的运动代码,同时还引入了一种新颖的TTS系统的条件方法,利用TFG模型中去除运动的特征来产生统一的语音输出。
  • 其它亮点
    本文实现了自然的说话面部和语音输出的多模态合成,能够准确地匹配输入文本。实验表明,该方法在未知身份的情况下具有很好的泛化能力。本文的亮点包括条件流匹配的运动采样器和新颖的TTS系统的条件方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如“Speech-Driven Talking Face Generation Using Conditional Wasserstein Generative Adversarial Networks”、“Speech2Face: Learning the Face Behind a Voice”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问