DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

2024年01月09日
  • 简介
    我们提出了DiffSHEG,一种基于扩散的语音驱动全面的三维表情和手势生成方法,可生成任意长度的序列。虽然先前的工作集中在单独生成共同语音手势或表情方面,但联合生成同步表情和手势的研究仍然很少。为了解决这个问题,我们的基于扩散的共同语音运动生成变压器实现了从表情到手势的单向信息流,促进了联合表情-手势分布的匹配。此外,我们引入了一种基于外部绘制的采样策略,用于扩散模型中的任意长序列生成,提供了灵活性和计算效率。我们的方法提供了一个实用的解决方案,可以产生由语音驱动的高质量同步表情和手势生成。在两个公共数据集上评估,我们的方法在定量和定性上均取得了最先进的性能。此外,用户研究证实了DiffSHEG优于先前的方法。通过实现表达和同步运动的实时生成,DiffSHEG展示了在数字人类和具有体现性代理的各种应用中的潜力。
  • 解决问题
    论文旨在解决语音驱动的全面三维表情和手势生成中的联合生成问题。之前的研究都是单独生成手势或表情,缺乏联合生成的探索。
  • 关键思路
    论文提出了一种基于扩散的方法,使用单向信息流从表情到手势,提高联合分布匹配。同时,引入了一种基于外部绘制的采样策略,提高了扩散模型中任意长度序列的生成效率和灵活性。
  • 其它亮点
    论文在两个公共数据集上进行了评估,结果在定量和定性上均表现出最先进的性能。此外,用户研究证实了DiffSHEG优于先前的方法。该方法为实时生成具有表现力和同步运动提供了实用的解决方案,并展示了在数字人和具身代理的开发中的潜力。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Co-Speech Gesture Generation with Recurrent Neural Networks》;2.《Generating Animated Responses with Deep Learning》;3.《Neural Speech Animation for Interactive Virtual Agents and Robots》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论