Autonomous Character-Scene Interaction Synthesis from Text Instruction

2024年10月04日
  • 简介
    本文探讨在3D环境中综合人类动作的挑战,尤其是那些涉及到复杂活动的,例如行走、伸手以及人与物体的互动。这些要求对于当前模型来说是一项挑战,导致了从简单的人类输入自动制作角色动画的巨大差距。本文通过引入一个全面的框架来解决这个难题,该框架可以直接从单个文本指令和目标位置综合多阶段场景感知交互动作。我们的方法采用自回归扩散模型来综合下一个动作段,同时使用自主调度程序来预测每个动作阶段的转换。为了确保综合的动作可以无缝地融入环境中,我们提出了一个场景表示方法,该方法考虑了起始位置和目标位置的局部感知。我们进一步通过将帧嵌入与语言输入结合来增强生成动作的连贯性。此外,为了支持模型训练,我们提供了一个全面的运动捕捉数据集,其中包括120个室内场景中16小时的运动序列,涵盖40种运动类型,每个类型的运动都带有精确的语言描述。实验结果表明,我们的方法可以生成与环境和文本条件密切相关的高质量、多阶段动作。
  • 图表
  • 解决问题
    本文试图解决从单一文本指令和目标位置中直接合成多阶段场景感知交互动作的问题,以及如何在环境中无缝集成合成的动作。
  • 关键思路
    本文提出了一个综合框架,使用自回归扩散模型合成下一个动作片段,并使用自主调度程序预测每个动作阶段的转换。为了确保合成的动作与环境无缝集成,提出了一种场景表示方法,考虑了起始位置和目标位置的局部感知。此外,本文还将帧嵌入与语言输入相结合,增强了生成动作的连贯性。
  • 其它亮点
    本文提供了一个包括16小时运动序列和120个室内场景的全面运动捕捉数据集,涵盖了40种运动类型,每种类型都有精确的语言描述。实验结果表明,本文提出的方法在生成与环境和文本条件紧密对齐的高质量多阶段动作方面是有效的。
  • 相关研究
    最近的相关研究包括:'Learning to Navigate the Web','Object-Oriented Tracking by Learning to Match','Learning to Learn from Weak Supervision by Full Supervision'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论