Towards Variable and Coordinated Holistic Co-Speech Motion Generation

2024年03月30日
  • 简介
    本文探讨了为3D头像生成逼真的整体语音动作的问题,着重关注了两个关键方面:变异性和协调性。变异性使得头像即使在类似的语音内容下也能展示出广泛的动作,而协调性则确保面部表情、手势和身体姿势之间的和谐对齐。我们旨在通过ProbTalk实现这两个目标,这是一个统一的概率框架,旨在联合建模语音中的面部、手部和身体运动。ProbTalk基于变分自编码器(VAE)架构,并结合了三个核心设计。首先,我们将产品量化(PQ)引入到VAE中,丰富了复杂整体运动的表示。其次,我们设计了一种新的非自回归模型,将2D位置编码嵌入到产品量化表示中,从而保留了PQ代码的基本结构信息。最后,我们采用了一个次级阶段来优化初步预测,进一步锐化高频细节。将这三个设计耦合在一起,使ProbTalk能够生成自然和多样化的整体语音动作,在定性和定量评估中优于几种最先进的方法,特别是在逼真程度方面。我们的代码和模型将在https://feifeifeiliu.github.io/probtalk/上发布供研究使用。
  • 图表
  • 解决问题
    本文的问题是如何生成逼真的3D头像的协同语音动作,解决变异性和协调性两个关键方面的问题。
  • 关键思路
    本文的关键思路是使用ProbTalk,这是一个基于变分自动编码器(VAE)架构的统一概率框架,用于共同建模言语中的面部表情、手势和身体动作。ProbTalk使用了产品量化(PQ)来丰富复杂的整体动作表示,设计了一种新的非自回归模型,将2D位置编码嵌入到PQ编码中,从而保留了PQ代码的基本结构信息,并使用第二阶段来进一步提高预测的精度。
  • 其它亮点
    本文的亮点包括ProbTalk可以生成自然和多样化的整体共话动作,优于几种最先进的方法,特别是在真实感方面。实验使用了多个数据集进行定量和定性评估,并将代码和模型发布用于研究目的。
  • 相关研究
    最近的相关研究包括使用VAE进行头像动画生成的研究,如《A Variational U-Net for Conditional Appearance and Shape Generation》和《Avatar-Net: Multi-Scale Zero-Shot Style Transfer by Feature Decoration》。还有一些研究使用深度学习技术生成面部表情和手势,如《Generating Handwriting via Deep Learning》和《End-to-End Learning of Deformable Mixture of Templates for Pose Estimation》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论