- 简介文本驱动的运动生成在扩散模型的出现下取得了实质性进展。然而,现有方法仍然难以生成与细致描述相对应的复杂运动序列,描绘详细准确的时空动作。这种缺乏精细可控性限制了运动生成的使用范围。为了解决这些挑战,我们提出了FineMoGen,一种基于扩散的运动生成和编辑框架,可以合成具有时空组合的细粒度运动,并根据用户指令进行编辑。具体而言,FineMoGen基于扩散模型构建,采用一种新颖的转换器架构,称为时空混合注意力(SAMI)。 SAMI从两个方面优化全局注意力模板的生成:1)明确建模时空组合的约束;2)利用稀疏激活的专家混合自适应提取细粒度特征。为了促进对这个新的细粒度运动生成任务的大规模研究,我们贡献了HuMMan-MoGen数据集,其中包括2,968个视频和102,336个细粒度时空描述。广泛的实验验证了FineMoGen相对于最先进的方法具有优越的运动生成质量。值得注意的是,FineMoGen还借助现代大型语言模型(LLM)实现了零样本运动编辑功能,可以根据细粒度指令忠实地操作运动序列。项目页面:https://mingyuan-zhang.github.io/projects/FineMoGen.html
- 图表
- 解决问题FineMoGen试图解决生成复杂动作序列的问题,这些序列对于精细的描述具有详细和准确的时空行为,通过使用Spatio-Temporal Mixture Attention(SAMI)来优化生成过程,并提供了一个新的数据集HuMMan-MoGen。
- 关键思路FineMoGen使用扩散模型和SAMI来生成复杂的时空动作序列,并使用现代大语言模型(LLM)实现零-shot动作编辑。
- 其它亮点FineMoGen的SAMI结构提供了一种新的方法来优化全局注意力模板的生成,具有适应性提取精细特征的能力。论文提供了一个新的数据集HuMMan-MoGen,用于大规模研究,实验证明FineMoGen比现有方法具有更好的生成质量。此外,FineMoGen提供了零-shot动作编辑能力,并提供了开源代码。
- 最近的相关研究包括使用扩散模型的其他动作生成方法,如Diffusion Probabilistic Models for Virtual Try-On and Beyond,以及使用注意力机制的动作生成方法,如Attentional Generative Adversarial Networks for Motion Retargeting。
沙发等你来抢
去评论
评论
沙发等你来抢