Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis

2024年05月16日
  • 简介
    本文提出了一种新的框架Semantic Gesticulator,旨在合成与语音有强烈语义对应关系的逼真手势。有意义的手势对于有效的非语言交流至关重要,但这些手势通常属于自然人类运动分布的长尾部分。这些运动的稀疏性使得基于深度学习的系统在训练中很难捕捉到运动和相应语义之间的关系,尤其是在中等规模的数据集上。为了解决这个问题,我们开发了一个基于大型语言模型的生成检索框架。该框架可以有效地从运动库中检索出适合的语义手势候选项以响应输入语音。为了构建这个运动库,我们总结了基于语言学研究发现的常用语义手势的全面列表,并收集了一个包含身体和手部运动的高质量运动数据集。我们还设计了一种具有强大泛化能力的基于GPT的模型,能够生成与语音节奏相匹配的高质量手势。此外,我们提出了一种语义对齐机制,以有效地将检索到的语义手势与GPT的输出对齐,确保最终动画的自然性。我们的系统展示了生成节奏一致且语义明确的手势的稳健性,这一点在全面的示例集合中得到了证明。用户研究证实了我们结果的质量和人类相似度,并显示我们的系统在语义适当性方面明显优于现有技术。
  • 解决问题
    本文旨在解决如何在语音合成时合成与语义对应的手势的问题。由于这些手势往往属于自然人类运动的长尾分布,因此使用深度学习模型进行训练时会面临挑战。
  • 关键思路
    本文提出了一种基于大型语言模型的生成检索框架,可以高效地从运动库中检索出适合的语义手势,并将其与语音合成结果进行语义对齐,以确保最终动画的自然性。
  • 其它亮点
    本文总结了一系列常用的语义手势,并收集了高质量的运动数据集。此外,本文还设计了一种具有强大泛化能力的基于GPT的模型,能够生成与语音节奏相匹配的高质量手势。实验结果表明,本文的系统能够生成节奏协调、语义明确、质量高、类人的手势,并且在语义适当性方面优于现有的系统。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Generating Diverse and Natural Text-to-Gesture Animations using Few-Shot Learning》、《Towards a Generalized and Efficient Gesture Recognition Method using Deep Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论