- 简介本文介绍了一种新的掩码建模框架MoMask,用于基于文本生成3D人体运动。MoMask采用分层量化方案,将人体运动表示为具有高保真度细节的多层离散运动令牌。从基础层开始,通过矢量量化得到一系列运动令牌,随后在后续层中导出和存储不断增加的残差令牌。然后使用两个不同的双向变压器。对于基础层运动令牌,指定一个掩码变压器,在训练阶段基于文本输入预测随机掩码运动令牌。在生成(即推理)阶段,从空序列开始,我们的掩码变压器迭代地填充缺失的令牌;随后,一个残差变压器学习逐步预测下一层令牌,基于当前层的结果。广泛的实验表明,MoMask在文本到运动生成任务上优于现有最先进方法,在HumanML3D数据集上的FID为0.045(例如,T2M-GPT为0.141),在KIT-ML上为0.228(vs 0.514)。MoMask还可以无需进一步的模型微调,无缝地应用于相关任务,如文本引导的时间填充。
- 图表
- 解决问题本文提出了一种新的文本驱动三维人体动作生成框架,试图解决文本到动作生成的问题。
- 关键思路本文提出了一种层次量化的方法,将人体动作表示为多层离散运动令牌,并使用两个不同的双向Transformer来预测运动令牌,其中一个是基于文本输入的Masked Transformer,另一个是基于当前层结果的Residual Transformer。
- 其它亮点本文提出的MoMask框架在文本到动作生成任务上表现出色,比目前最先进的方法在HumanML3D数据集上的FID从0.141提高到了0.045,在KIT-ML数据集上的FID从0.514提高到了0.228。该框架还可以无缝应用于相关任务,如文本引导的时间修复。
- 在这个领域,最近的相关研究包括T2M-GPT等。
沙发等你来抢
去评论
评论
沙发等你来抢