A Unified Editing Method for Co-Speech Gesture Generation via Diffusion Inversion

向作者提问

NEW

简介

扩散模型已经在生成高质量的共同语言手势方面取得了巨大成功，这些手势可以用作交互式人形机器人或数字化身的输入条件，从带有语音音频或文本的嘈杂输入中生成。然而，它们很少专注于为内容创作者提供除样式调节之外的丰富编辑功能。为了解决这个问题，我们提出了一个统一的框架，利用扩散反演，实现了共同语言手势生成的多级编辑能力，无需重新训练。该方法利用了可逆扩散模型的两个关键能力。第一，通过反演，我们可以从手势中重建中间噪声，并从噪声中再次生成新的手势。这可以用于获得与不同语音条件下原始手势具有高级相似性的手势。第二，这种重建减少了梯度计算期间的激活缓存要求，使得在当前具有有限内存的硬件上直接优化输入噪声成为可能。通过为不同的损失函数设计，例如，联合旋转或速度，我们可以通过优化自动调整输入噪声来控制各种低级细节。多个用例的广泛实验表明，这个框架成功地统一了高级和低级共同语言手势编辑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决目前扩散模型在共语手势生成方面缺乏丰富编辑能力的问题，提出了一种利用扩散反演的统一框架，实现了不需要重新训练即可进行多级编辑的共语手势生成。
关键思路

该框架利用扩散模型的两个关键能力，即通过反演可以重构噪声并从噪声中再次生成新的手势，以及反演可以减少梯度计算中的激活缓存需求，从而在有限的内存硬件上实现直接优化输入噪声。通过设计不同的损失函数，可以控制各种低级细节，从而实现高级和低级共语手势编辑。
其它亮点

论文进行了多个实验，证明了该框架的有效性。实验使用了多个数据集，并且开源了代码。该框架的方法可以应用于其他共语手势生成任务，并且可以为内容创作者提供更多编辑能力。
相关研究

在这个领域中，最近还有一些相关的研究，例如《Speech2Gesture: Inferring Human Gestures from Speech》和《Generating Co-speech Gestures with Style Tokens》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问