SIGGesture: Generalized Co-Speech Gesture Synthesis via Semantic Injection with Large-Scale Pre-Training Diffusion Models

简介

自动合成高质量的三维手势对于虚拟人和游戏具有重要价值。以往的方法侧重于合成与语音节奏同步的手势，但它们经常忽视了语义手势的包含。这些手势在手势序列中稀疏并且呈长尾分布，使得它们难以以端到端的方式学习。此外，生成与语音节奏相一致的手势面临着一个重要问题，即无法推广到野外演讲中。为了解决这些问题，我们引入了SIGGesture，一种新颖的基于扩散的方法，用于合成既高质量又语义相关的逼真手势。具体而言，我们首先通过在收集的大规模数据集上使用伪标签进行预训练，构建了一个强大的基于扩散的节奏手势合成基础模型。其次，我们利用大型语言模型（LLMs）的强大泛化能力，为各种语音内容生成适当的语义手势。最后，我们提出了一个语义注入模块，在扩散反转过程中将语义信息注入到合成结果中。广泛的实验表明，所提出的SIGGesture显著优于现有基线，并显示出出色的泛化性和可控性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决语音转3D手势合成中存在的问题，即如何生成高质量、与语义相关的手势，并且能够适应不同的语音内容。
关键思路

论文提出了一种基于扩散过程的方法，通过预训练模型和语言模型生成语义相关的手势，并且提出了语义注入模块来改进生成结果。
其它亮点

论文通过大量实验验证了该方法的有效性和可控性，并且相较于现有的方法具有更好的表现。同时，论文提供了一个大规模的数据集和开源的代码，对于语音转3D手势合成领域的研究具有重要的参考价值。
相关研究

在最近的相关研究中，也有一些使用深度学习的方法进行语音转手势的研究，例如《End-to-End Learning of 3D Facial Animation from Speech》和《Lip Reading with 3D Convolutional Neural Networks》等。

SIGGesture: Generalized Co-Speech Gesture Synthesis via Semantic Injection with Large-Scale Pre-Training Diffusion Models

提问交流

提问交流