- 简介近年来,3D说话人生成领域取得了显著进展。该领域的一个显著挑战是将语音相关的动作与表情动态相结合,这主要是由于缺乏将口语句子多样性与各种面部表情相结合的全面的3D数据集所致。虽然文献作品试图利用2D视频数据和参数化3D模型作为解决方法,但在联合建模这两种运动时仍存在局限性。在这项工作中,我们从不同的角度解决了这个问题,并提出了一种创新的数据驱动技术,用于创建一个合成数据集,称为EmoVOCA,该数据集由一组无表情的3D说话人和一组3D表情序列组成。为了展示这种方法的优势和数据集的质量,我们设计和训练了一个情感3D说话人生成器,它接受3D人脸、音频文件、情感标签和强度值作为输入,并学习将音频同步的唇部运动与面部的表情特征相结合。使用我们的数据和生成器进行的全面实验,包括定量和定性实验,证明了与文献中表现最佳的方法相比,我们具有合成令人信服的动画的优越能力。我们的代码和预训练模型将提供给大众。
- 图表
- 解决问题提出一种新的数据驱动技术,用于创建综合的3D数据集,以解决3D语音头生成中的表情动态问题。
- 关键思路将一个无表情的3D语音头集合与一组具有表情的3D序列结合起来,创建一个名为EmoVOCA的合成数据集,并设计和训练一个情感3D语音头生成器,以实现在音频同步的情况下将唇部运动与面部表情特征相结合。
- 其它亮点论文使用了一个创新的数据驱动技术来创建一个综合的3D数据集,提出了一种新的方法来解决语音相关运动与表情动态之间的问题。实验结果表明,该方法比当前领域中最好的方法更具说服力。研究者还开放了代码和预训练模型。
- 最近的相关研究包括“3D人脸重建”、“基于深度学习的语音动画生成”等。
沙发等你来抢
去评论
评论
沙发等你来抢