- 简介将文本转化为人体动作一直是通过去噪动作模型实现的,这些模型通常通过扩散或生成掩码过程进行去噪。然而,这些模型在可用性方面存在很大限制,因为需要先了解动作的长度。相反,自回归动作模型通过自适应地预测动作端点来解决这个问题,但代价是降低了生成质量和编辑能力。为了解决这些挑战,研究人员提出了一种新的文本到动作生成框架——双向自回归运动模型(BAMM)。BAMM由两个关键组件组成:(1)运动分词器,将3D人体运动转化为潜在空间中的离散标记;(2)掩码自注意力变换器,通过混合注意力掩码策略自回归地预测随机掩码标记。通过统一生成掩码建模和自回归建模,BAMM捕捉了运动标记之间丰富的双向依赖关系,并学习了从文本输入到运动输出的概率映射,同时具有动态调整的运动序列长度。这个特性使得BAMM能够同时实现高质量的运动生成和增强的可用性以及内置的运动可编辑性。在HumanML3D和KIT-ML数据集上进行的大量实验表明,BAMM在定性和定量指标上均超过了当前最先进的方法。该项目页面可在https://exitudio.github.io/BAMM-page找到。
-
- 图表
- 解决问题本论文旨在解决从文本生成人体运动的问题,提出了一种新的框架Bidirectional Autoregressive Motion Model (BAMM),旨在提高运动生成的质量和可编辑性,同时解决了现有模型对运动长度先验知识的要求的限制。
- 关键思路BAMM框架由运动分词器和掩膜自注意力变换器两个关键组件组成,通过混合注意力掩膜策略自回归地预测随机掩膜的运动分词,并在学习过程中动态调整运动序列长度,从而捕捉运动分词之间的丰富双向依赖关系,实现从文本输入到运动输出的概率映射。
- 其它亮点论文在HumanML3D和KIT-ML数据集上进行了广泛的实验,证明BAMM在定性和定量指标上均优于当前最先进的方法。此外,论文还提供了开源代码和项目页面,为后续研究提供了参考。值得进一步研究的工作包括如何将BAMM应用于其他领域的文本到运动生成,以及如何进一步提高BAMM的生成质量和编辑能力。
- 在相关研究方面,最近的一些研究包括Diffusion Models for Text-to-3D Human Motion Generation和Autoregressive Models for Text-to-3D Human Motion Generation等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流