- 简介文本条件下的人体动作生成已经在训练了大量的动作捕捉数据和相应的文本注释的扩散模型上取得了显著进展。然而,将这样的成功扩展到3D动态人物-物体交互(HOI)生成面临着显著的挑战,主要是由于缺乏大规模的交互数据和与这些交互相一致的全面描述。本文采取了主动措施,并展示了在没有直接训练文本-交互对数据的情况下生成人体-物体交互的潜力。我们在实现这一目标时的关键见解是交互语义和动力学可以解耦。由于无法通过监督训练学习交互语义,因此我们利用预训练的大型模型,将来自大型语言模型和文本到动作模型的知识协同作用。虽然这样的知识提供了对交互语义的高级控制,但它无法把握低级交互动力学的复杂性。为了克服这个问题,我们进一步引入了一个世界模型,设计用于理解简单的物理学,模拟人类行为如何影响物体运动。通过集成这些组件,我们的新型框架InterDreamer能够以零-shot的方式生成文本对齐的3D HOI序列。我们将InterDreamer应用于BEHAVE和CHAIRS数据集,并进行了全面的实验分析,证明了它生成逼真、连贯的交互序列的能力,这些序列与文本指令完美地对齐。
- 图表
- 解决问题本文旨在探索如何在没有直接训练文本-交互数据的情况下生成人-物交互的三维动态序列。这是一个新问题。
- 关键思路本文的关键思路是将交互的语义和动态分离开来,利用预训练的大型模型和世界模型相结合,实现零样本学习。
- 其它亮点本文提出的InterDreamer框架能够生成与文本指令无缝对齐的3D人-物交互序列,并在BEHAVE和CHAIRS数据集上进行了实验验证。实验结果表明,该框架能够生成逼真且连贯的交互序列。
- 最近的相关研究包括使用扩散模型训练的文本条件人体运动生成以及使用深度学习生成人-物交互序列的研究。
沙发等你来抢
去评论
评论
沙发等你来抢