SIGGesture: Generalized Co-Speech Gesture Synthesis via Semantic Injection with Large-Scale Pre-Training Diffusion Models

2024年05月22日
  • 简介
    自动合成高质量的三维手势对于虚拟人和游戏具有重要价值。以往的方法侧重于合成与语音节奏同步的手势,但它们经常忽视了语义手势的包含。这些手势在手势序列中稀疏并且呈长尾分布,使得它们难以以端到端的方式学习。此外,生成与语音节奏相一致的手势面临着一个重要问题,即无法推广到野外演讲中。为了解决这些问题,我们引入了SIGGesture,一种新颖的基于扩散的方法,用于合成既高质量又语义相关的逼真手势。具体而言,我们首先通过在收集的大规模数据集上使用伪标签进行预训练,构建了一个强大的基于扩散的节奏手势合成基础模型。其次,我们利用大型语言模型(LLMs)的强大泛化能力,为各种语音内容生成适当的语义手势。最后,我们提出了一个语义注入模块,在扩散反转过程中将语义信息注入到合成结果中。广泛的实验表明,所提出的SIGGesture显著优于现有基线,并显示出出色的泛化性和可控性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决语音转3D手势合成中存在的问题,即如何生成高质量、与语义相关的手势,并且能够适应不同的语音内容。
  • 关键思路
    论文提出了一种基于扩散过程的方法,通过预训练模型和语言模型生成语义相关的手势,并且提出了语义注入模块来改进生成结果。
  • 其它亮点
    论文通过大量实验验证了该方法的有效性和可控性,并且相较于现有的方法具有更好的表现。同时,论文提供了一个大规模的数据集和开源的代码,对于语音转3D手势合成领域的研究具有重要的参考价值。
  • 相关研究
    在最近的相关研究中,也有一些使用深度学习的方法进行语音转手势的研究,例如《End-to-End Learning of 3D Facial Animation from Speech》和《Lip Reading with 3D Convolutional Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问