InterDiff：使用物理知识扩散生成3D人体物体交互。

InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion

解决问题：本论文旨在解决一种新的任务，即预测三维人-物体交互，而现有的大多数研究仅限于操作小型或静态物体，缺乏全身交互的综合性。这是一个相当有挑战性的任务，需要对具有各种形状的动态物体进行建模，捕捉全身动作，并确保物理有效的交互。

关键思路：本文提出了InterDiff框架，包括两个关键步骤：（i）交互扩散，利用扩散模型编码未来的人-物体交互分布；（ii）交互校正，在扩散步骤中引入物理信息预测器来纠正去噪后的人-物体交互。本文的关键洞见是注入先验知识，即参考点下的交互遵循简单的模式并易于预测。

其他亮点：本文在多个人-物体交互数据集上进行实验，证明了我们的方法在这个任务上的有效性，能够产生逼真、生动且长期的三维人-物体交互预测。该论文的代码已开源，值得进一步研究。

相关研究：近期的相关研究包括："Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans" (Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo, Yaser Sheikh) 和 "Neural Scene Graphs for Dynamic Scenes" (Jiajun Wu, Michael Rubinstein, Ce Liu, William T. Freeman).

论文摘要：这篇论文探讨了一个新颖的任务，即预测三维人物与物体之间的交互（HOI）。大部分现有的HOI合成研究缺乏全面的整体交互，例如仅限于操纵小型或静态物体。我们的任务更具挑战性，因为它需要对具有各种形状的动态物体进行建模，捕捉整体运动，并确保物理上有效的交互。为此，我们提出了InterDiff，一个框架包括两个关键步骤：（i）交互扩散，其中我们利用扩散模型来编码未来人物-物体交互的分布；（ii）交互校正，我们引入一个物理知识预测器，在扩散步骤中对去噪的HOI进行校正。我们的关键洞察是注入先验知识，即与接触点相关的交互遵循简单模式且易于预测。在多个人物-物体交互数据集上的实验表明，我们的方法对于这个任务是有效的，能够产生逼真、生动和非常长期的三维HOI预测。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

InterDiff：使用物理知识扩散生成3D人体物体交互。

评论列表

评论