GRIP: Generating Interaction Poses Using Latent Consistency and Spatial Cues

解决问题:本篇论文旨在解决模拟人类与物体互动时手部姿态模拟不真实的问题,提出了一种基于学习的方法GRIP来生成逼真的手部运动。相比之前的研究,该论文将手部姿态纳入模拟范畴,提高了模拟的真实性。

关键思路:GRIP的关键思路是将人体和物体的3D运动作为输入,通过两个阶段的推理过程生成逼真的手部姿态。首先,使用ANet网络对手臂运动进行去噪处理,然后提取两种新颖的时间交互提示,利用两阶段推理生成手部运动。第一阶段引入了一种新的方法来在潜在空间中强制运动时间一致性(LTC),生成一致的交互运动。第二阶段的GRIP生成精细的手部姿态,避免手部与物体的穿透现象。

其他亮点:该论文的实验结果表明,GRIP在多个数据集上的表现均优于基线方法,并且可以泛化到不同数据集中看不见的物体和动作。此外,该论文未公开开源代码。

相关研究:最近的相关研究包括“InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose Estimation from a Single RGB Image”(Hasson, Lepetit, and Wolf),以及“Learning to Estimate 3D Hand Pose from Single RGB Images Using Multi-View Bootstrapping”(Ge, Ren, and Yuan)等。

论文摘要:本文介绍了一种名为GRIP的基于学习的方法,用于捕捉和建模人体与物体的真实互动,包括手指的微小运动,对于计算机图形学、计算机视觉和混合现实应用非常重要。与以往注重捕捉和建模人体和物体运动的工作不同,GRIP将人体和物体的三维运动作为输入,然后在物体互动之前、期间和之后合成两只手的真实运动。在合成手部运动之前,我们首先使用一个名为ANet的网络对手臂运动进行去噪处理。然后,我们利用身体和物体之间的时空关系提取两种新的时间互动线索,并在一个两阶段的推理流程中使用它们来生成手部运动。在第一阶段,我们引入了一种新的方法来在潜在空间中强制运动时间一致性(LTC),并生成一致的互动运动。在第二阶段,GRIP生成精细的手部姿势,以避免手与物体的穿透。在给定嘈杂的身体和物体运动序列的情况下,GRIP将它们升级为包括手物互动的运动。定量实验和感知研究表明,GRIP优于基线方法,并且适用于来自不同动作捕捉数据集的未见过的物体和运动。

内容中包含的图片若涉及版权问题,请及时与我们联系删除