Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method

2024年03月24日
  • 简介
    注视在揭示人类注意力和意图方面发挥着至关重要的作用,揭示了人类行为背后的认知过程。注视指导与手-物互动动力学的整合提高了人类动作预测的准确性。然而,缺乏捕捉注视、手和物体运动之间复杂关系和一致性的数据集仍然是一个重要的障碍。在本文中,我们介绍了第一个注视指导的手-物互动数据集GazeHOI,并提出了一个新的任务,即合成注视指导的手-物互动。我们的数据集GazeHOI特征在同时建模注视、手和物体互动的3D模型,包括479个序列,平均持续时间为19.1秒,812个子序列和33个不同大小的物体。我们提出了一个以注视指导的手-物互动扩散模型为中心的分层框架,名为GHO-Diffusion。在扩散前阶段,我们将注视条件分为不同信息粒度的时空特征和目标姿态条件。在扩散阶段,我们堆叠两个注视条件的扩散模型,以简化手-物运动的复杂合成。其中,物体运动扩散模型基于注视条件生成物体运动序列,而手运动扩散模型则基于生成的物体运动产生手运动。为了改善细粒度目标姿态对齐,我们引入了球形高斯约束来指导去噪步骤。在随后的扩散后阶段,我们使用接触一致性优化生成的手运动。我们广泛的实验突显了我们数据集的独特性和我们方法的有效性。
  • 图表
  • 解决问题
    本文旨在解决缺乏同时捕捉视线、手和物体运动之间复杂关系和一致性的数据集的问题,并提出一种新的任务:合成视线引导的手-物体交互。
  • 关键思路
    本文提出了一种基于视线引导的手-物体交互扩散模型GHO-Diffusion的分层框架,该模型分为前扩散、扩散和后扩散三个阶段,通过堆叠两个视线条件扩散模型简化手-物体运动的复杂合成,使用球面高斯约束来提高目标姿态对齐的细粒度,并使用接触一致性来优化生成的手部运动。
  • 其它亮点
    本文介绍了第一个同时捕捉视线、手和物体交互的数据集GazeHOI,包括479个序列、平均持续时间19.1秒、812个子序列和33个不同大小的物体。作者进行了大量实验来验证他们的方法,证明了他们的数据集的独特性和方法的有效性。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:《Gaze360: Physically Unconstrained Gaze Estimation in the Wild》、《Gaze Prediction in Egocentric Video by Learning Task-dependent Attention Transition》、《Hand-Object Manipulation Recognition Using 3D Convolutional Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论