LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model

2024年05月06日
  • 简介
    本文介绍了一种新颖的文本到动作生成的本地到全局管道LGTM。LGTM采用扩散式架构,旨在解决将文本描述准确翻译成计算机动画中语义连贯的人体动作的挑战。具体来说,传统方法经常在语义上存在差异,特别是在将特定运动与正确的身体部位对齐方面。为了解决这个问题,我们提出了一个两阶段管道来克服这个挑战:首先使用大型语言模型(LLMs)将全局运动描述分解为特定部分的叙述,然后由独立的身体部分运动编码器处理,以确保精确的本地语义对齐。最后,基于注意力机制的全身优化器优化运动生成结果并保证整体连贯性。我们的实验表明,LGTM在生成本地准确、语义对齐的人体动作方面取得了显著的改进,标志着文本到动作应用的一个显著进步。本文的代码和数据可在https://github.com/L-Sun/LGTM中获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决文本描述转化为计算机动画中人类运动的语义一致性问题,特别是在将特定动作与正确的身体部位对齐方面存在的问题。
  • 关键思路
    论文提出了一种基于扩散的架构,称为LGTM,采用两阶段流程来克服这一挑战:首先,利用大型语言模型(LLMs)将全局运动描述分解为局部的身体部位叙述,然后通过独立的身体部位运动编码器来处理这些局部叙述,以确保精确的本地语义对齐。最后,基于注意力机制的全身优化器对运动生成结果进行精细调整,确保整体一致性。
  • 其它亮点
    论文的亮点包括使用大型语言模型(LLMs)来分解全局运动描述,提出了一种新的局部到全局的流程,以解决语义不一致性问题,并通过实验证明了LGTM在生成本地准确、语义对齐的人体运动方面具有显著的改进。此外,论文还提供了代码和数据集,方便其他研究者进行相关研究。
  • 相关研究
    在这个领域中的相关研究包括:1. Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks;2. Learning to Animate Quadrupeds;3. Motion Prediction for Robot Manipulation with Deep Learning。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问