InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion

解决问题:本论文旨在解决一种新的任务,即预测三维人-物体交互,而现有的大多数研究仅限于操作小型或静态物体,缺乏全身交互的综合性。这是一个相当有挑战性的任务,需要对具有各种形状的动态物体进行建模,捕捉全身动作,并确保物理有效的交互。

关键思路:本文提出了InterDiff框架,包括两个关键步骤:(i)交互扩散,利用扩散模型编码未来的人-物体交互分布;(ii)交互校正,在扩散步骤中引入物理信息预测器来纠正去噪后的人-物体交互。本文的关键洞见是注入先验知识,即参考点下的交互遵循简单的模式并易于预测。

其他亮点:本文在多个人-物体交互数据集上进行实验,证明了我们的方法在这个任务上的有效性,能够产生逼真、生动且长期的三维人-物体交互预测。该论文的代码已开源,值得进一步研究。

相关研究:近期的相关研究包括:"Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans" (Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo, Yaser Sheikh) 和 "Neural Scene Graphs for Dynamic Scenes" (Jiajun Wu, Michael Rubinstein, Ce Liu, William T. Freeman).

论文摘要:这篇论文探讨了一个新颖的任务,即预测三维人物与物体之间的交互(HOI)。大部分现有的HOI合成研究缺乏全面的整体交互,例如仅限于操纵小型或静态物体。我们的任务更具挑战性,因为它需要对具有各种形状的动态物体进行建模,捕捉整体运动,并确保物理上有效的交互。为此,我们提出了InterDiff,一个框架包括两个关键步骤:(i)交互扩散,其中我们利用扩散模型来编码未来人物-物体交互的分布;(ii)交互校正,我们引入一个物理知识预测器,在扩散步骤中对去噪的HOI进行校正。我们的关键洞察是注入先验知识,即与接触点相关的交互遵循简单模式且易于预测。在多个人物-物体交互数据集上的实验表明,我们的方法对于这个任务是有效的,能够产生逼真、生动和非常长期的三维HOI预测。

内容中包含的图片若涉及版权问题,请及时与我们联系删除