- 简介现有的多人人体重建方法主要关注恢复准确的姿势或避免穿透,但忽略了密切互动的建模。在这项工作中,我们解决了从单目视频重建紧密互动人类的任务。这项任务的主要挑战来自于深度模糊和严重的人际遮挡造成的视觉信息不足。基于此,我们提出利用亲密行为和物理学知识来弥补视觉信息的不足。这是基于人类互动遵循社交亲密度的特定模式的观察。具体来说,我们首先设计了一个基于向量量化变分自编码器(VQ-VAE)的潜在表示来建模人类互动。然后引入了一个亲密度和物理学引导扩散模型来去噪初始分布。我们将扩散模型设计为双分支,每个分支代表一个个体,以便通过交叉注意力来建模互动。通过学习VQ-VAE的先验知识和物理约束作为额外信息,我们提出的方法能够估计出既准确又符合亲密度和物理学的姿势。在Hi4D、3DPW和CHI3D上的实验结果表明,我们的方法优于现有方法。代码可在 \url{https://github.com/boycehbz/HumanInteraction} 上找到。
- 图表
- 解决问题解决问题:本论文试图从单目视频中重建密切互动的人类场景,通过利用社交亲密行为和物理学知识来弥补视觉信息不足的问题。
- 关键思路关键思路:论文使用VQ-VAE设计潜在表示来建模人类互动,然后引入基于亲密行为和物理学引导的扩散模型来去噪初始分布。扩散模型被设计为双分支,每个分支代表一个个体,以便可以通过交叉注意力来建模交互。
- 其它亮点其他亮点:论文在Hi4D、3DPW和CHI3D数据集上进行了实验,结果表明该方法优于现有方法。此外,作者已经公开了代码。
- 相关研究:最近在这个领域中,一些相关的研究包括:“Monocular Total Capture: Posing Face, Body, and Hands in the Wild”和“PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization”。
沙发等你来抢
去评论
评论
沙发等你来抢