- 简介我们解决了通过文本提示生成逼真的三维人物-物体交互(HOIs)的问题。与使用单个模型不同的是,我们的关键洞察是采用模块化设计,将复杂的任务分解为较简单的子任务。我们首先开发了一个双分支扩散模型(HOI-DM),它可以生成人体和物体的动作,并根据输入文本进行条件约束,并通过人体和物体动作生成分支之间的交叉注意力通信模块来鼓励一致的动作。我们还开发了一个能力预测扩散模型(APDM),用于预测由文本提示驱动的交互期间人体和物体之间的接触区域。APDM独立于HOI-DM的结果,因此可以通过后者纠正潜在的错误。此外,它会随机生成接触点以使生成的动作多样化。最后,我们将估计的接触点合并到分类器引导中,以实现人体和物体之间准确和紧密的接触。为了训练和评估我们的方法,我们使用文本描述注释了BEHAVE数据集。实验结果表明,我们的方法能够产生具有各种交互和不同类型物体的逼真HOIs。
-
- 图表
- 解决问题本论文的问题是如何生成逼真的三维人-物交互(HOIs)并以文本提示为驱动。
- 关键思路论文采用模块化设计,将复杂任务分解为简单的子任务。首先,开发了双分支扩散模型(HOI-DM)来生成人和物体的动作,同时通过人和物体动作生成分支之间的交叉注意力通信模块来鼓励连贯的动作。其次,开发了一个可供性预测扩散模型(APDM)来预测在文本提示驱动下人与物体之间的接触区域。最后,将估计的接触点合并到分类器引导中,以实现准确和紧密的人-物接触。
- 其它亮点该方法能够产生具有各种交互和不同类型物体的逼真HOIs。实验使用BEHAVE数据集进行训练和评估。该论文的亮点在于采用了模块化设计,同时开发了两个独立的模型来解决复杂的问题,并引入了交叉注意力通信模块和随机生成接触点的可供性预测扩散模型。
- 近期的相关研究包括:'Learning to Generate 3D Human Pose and Shape via Multiview Discrimation Consistency'和'3D Human Pose and Shape Estimation from Multi-View Images by Regression with a Mixture of Normal Distributions'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流