TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

解决问题:本文旨在解决文本到3D人体动作检索的问题,并将检索作为一个独立的任务来处理。相比之前的工作仅将检索作为代理评估指标,本文提出了TMR方法,该方法扩展了最先进的文本到动作合成模型TEMOS,并结合对比损失来更好地构建跨模态潜空间。

关键思路:本文的关键思路是将对比损失与动作生成损失相结合,以获得更好的性能。相比当前领域的研究状况,本文的思路在于将检索作为一个独立的任务来处理,并提出了一种新的方法来构建跨模态潜空间。

其他亮点:本文在KIT-ML和HumanML3D数据集上进行了大量实验,并展示了TMR方法相比之前的工作显著提高的性能。此外,本文还展示了该方法在时刻检索方面的潜力。作者公开了代码和模型。

关于作者:Mathis Petrovich、Michael J. Black和Gül Varol是本文的主要作者。Michael J. Black是德国马克斯普朗克研究所计算视觉和多媒体部门的主任,曾在人体姿势估计和运动分析方面做出了重要贡献。Gül Varol是麻省理工学院计算机科学和人工智能实验室的博士后研究员,主要研究方向是计算机视觉和机器学习。Mathis Petrovich的研究兴趣涉及计算机视觉、机器学习和图形学等领域。

相关研究:近期其他相关的研究包括《Text2Gif: Generating Animated GIFs from Descriptive Text》(作者:Zi-Yi Dou、Jia-Xing Zhao、Tao Mei,机构:Microsoft Research Asia)、《Generative Modeling of 3D Human Motion with Temporal and Spatial Transformers》(作者:Chunyu Wang、Yuan Gao、Nenglun Chen、Jingwei Xu、Jianfei Cai,机构:南方科技大学)等。

论文摘要:本文介绍了一种简单而有效的方法TMR,用于文本到三维人体运动检索。我们解决了之前只将检索视为代理评估指标的问题,将其作为一个独立的任务来处理。我们的方法扩展了最先进的文本到运动合成模型TEMOS,并加入了对比损失来更好地构造跨模态潜空间。我们表明,保持运动生成损失,以及对比训练,对于获得良好的性能至关重要。我们引入了一个评估基准,并通过在几个协议上报告结果进行了深入分析。我们在KIT-ML和HumanML3D数据集上进行了广泛的实验,结果显示TMR的性能显著优于之前的工作,例如将中位数排名从54降至19。最后,我们展示了我们方法在时刻检索上的潜力。我们的代码和模型是公开可用的。

内容中包含的图片若涉及版权问题,请及时与我们联系删除