- 简介最近的语音驱动3D说话头生成研究在口头表达方面取得了令人信服的结果。然而,当应用于其他语言的输入语音时,生成准确的口型同步会降低,可能是由于缺乏涵盖跨语言面部运动的数据集。在这项工作中,我们介绍了一个新的任务,即从不同语言的演讲中生成3D说话头。我们收集了一个新的多语言2D视频数据集,包括20种语言的超过420小时的说话视频。通过我们提出的数据集,我们提出了一个多语言增强模型,它包含语言特定的风格嵌入,使其能够捕捉与每种语言相关的独特口部运动。此外,我们提出了一种度量多语言环境下评估口型同步准确性的指标。我们证明,使用我们提出的数据集训练3D说话头模型可以显著提高其多语言性能。代码和数据集可在https://multi-talk.github.io/获得。
- 图表
- 解决问题本论文旨在解决多语言语音驱动的3D说话头生成中的口型同步问题,提出了一种新的多语言2D视频数据集,并提出了一种多语言增强模型,以捕捉每种语言所关联的独特口腔动作。
- 关键思路论文的关键思路是通过引入语言特定的风格嵌入,使模型能够捕捉每种语言所关联的独特口腔动作,从而提高多语言性能。
- 其它亮点论文收集了一个包含20种语言的多语言2D视频数据集,总计超过420小时的说话视频;提出了一种评估多语言口型同步准确性的度量标准;证明了使用提出的数据集训练3D说话头模型可以显著提高其多语言性能。论文提供了代码和数据集。
- 最近的相关研究包括:1)基于语音的3D说话头生成;2)基于视频的3D说话头生成;3)多语言语音识别。
沙发等你来抢
去评论
评论
沙发等你来抢