Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis

2024年05月16日
  • 简介
    本文介绍了一种新的框架——语义手势生成器,旨在合成与语音具有强烈语义对应关系的逼真手势。在有效的非语言交流中,具有语义意义的手势至关重要,但这些手势通常处于自然人类动作分布的长尾部分。这些动作的稀疏性使得基于深度学习的系统在训练中很难捕捉到动作与相应语义之间的关系。为了解决这个挑战,我们开发了一种基于大型语言模型的生成检索框架。该框架可以在响应输入语音时从动作库中有效检索出合适的语义手势候选项。为了构建这个动作库,我们总结了基于语言学研究发现的常用语义手势的全面列表,并收集了一个包含身体和手部动作的高质量运动数据集。我们还设计了一种具有强大泛化能力的新型基于GPT的模型,可以生成与语音节奏相匹配的高质量手势。此外,我们提出了一种语义对齐机制,以有效地将检索到的语义手势与GPT的输出对齐,确保最终动画的自然性。我们的系统展示了生成节奏一致、语义明确的手势的稳健性,如全面的示例集所证明。用户研究证实了我们结果的质量和人类相似度,并表明我们的系统在语义适当性方面的表现明显优于现有技术。
  • 图表
  • 解决问题
    本文旨在解决有效的非语言交流中,语义明确的手势生成问题。由于这些手势通常落在自然人类运动的长尾分布中,所以如何捕捉手势与相应语义之间的关系是一个具有挑战性的问题。
  • 关键思路
    本文提出了一种基于大型语言模型的生成检索框架,通过高效地从运动库中检索适当的语义手势候选项来响应输入的语音。同时,本文提出了一种语义对齐机制,以确保最终生成的动画的自然性。
  • 其它亮点
    本文总结了基于语言学研究得出的常用语义手势,并收集了高质量的运动数据集。本文设计了一种新颖的GPT模型,具有强大的音频泛化能力,能够生成与语音节奏相匹配的高质量手势。实验结果表明,本文的系统在生成节奏协调和语义明确的手势方面表现出鲁棒性,比现有的系统表现更好。
  • 相关研究
    最近的相关研究包括基于动作捕捉的手势合成和基于GAN的手势合成。其中,关于语义手势的研究相对较少,但是有一些研究探讨了基于语义的手势合成,如基于LSTM的手势合成和基于语义约束的手势合成。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论