Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation

2024年01月16日
  • 简介
    最近生成建模的进展已经在从文本合成3D人体动作方面取得了有希望的进展,使用的方法可以从短提示和指定的持续时间生成角色动画。然而,使用单个文本提示作为输入缺乏动画师所需的细粒度控制,例如组合多个动作和定义运动的精确持续时间。为解决这个问题,我们引入了文本驱动运动合成的时间轴控制新问题,为用户提供了直观但细粒度的输入界面。用户可以指定多个提示的多轨时间轴,这些提示按时间间隔组织,这些时间间隔可能重叠。这使得可以指定每个动作的确切时间,并在序列中或在重叠的时间间隔中组合多个动作。为了从多轨时间轴生成组合动画,我们提出了一种新的测试时去噪方法。该方法可以与任何预训练的运动扩散模型集成,以合成真实的动作,准确反映时间轴。在去噪的每个步骤中,我们的方法单独处理每个时间轴间隔(文本提示),随后考虑每个动作中涉及的特定身体部位来聚合预测。实验比较和消融验证了我们的方法产生了符合给定文本提示的语义和时序的真实动作。我们的代码和模型可在https://mathis.petrovich.fr/stmc上公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了一个新的问题——如何通过多轨道时间线来控制文本驱动的运动合成,以提供更细粒度的控制。
  • 关键思路
    论文通过提出多轨道时间线的方法,使用户能够指定每个动作的确切时间和顺序,从而实现更细粒度的控制。同时,论文提出了一种新的测试时去噪方法,可以生成符合时间线的逼真运动。
  • 其它亮点
    论文的实验结果表明,该方法可以生成符合时间线的逼真运动,同时保持文本提示的语义和时间。论文还公开了代码和模型,以供其他研究人员使用和扩展。
  • 相关研究
    最近的相关研究包括《Text2Gif: Generating Animated GIFs from Descriptive Text》、《Text2Scene: Generating Synthetic Scenes from Textual Descriptions via Attribute-Driven Adaptation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问