Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method

简介

凝视在揭示人类注意力和意图方面发挥着至关重要的作用，揭示了人类行为背后的认知过程。将凝视引导与手-物体交互的动态相结合，提高了人类运动预测的准确性。然而，缺乏捕捉凝视、手和物体运动之间错综复杂关系和一致性的数据集仍然是一个重大障碍。在本文中，我们介绍了第一个凝视引导的手-物体交互数据集GazeHOI，并提出了一个新的任务，用于合成凝视引导的手-物体交互。我们的数据集GazeHOI具有同时建模凝视、手和物体交互的三维模型，包括479个序列，平均持续时间为19.1秒，812个子序列和33个不同大小的物体。我们提出了一个基于凝视引导的手-物体交互扩散模型的分层框架，名为GHO-Diffusion。在预扩散阶段，我们将凝视条件分为不同信息粒度的空间-时间特征和目标姿态条件。在扩散阶段，我们堆叠两个凝视条件扩散模型，以简化手-物体运动的复杂合成。这里，物体运动扩散模型基于凝视条件生成物体运动序列，而手运动扩散模型基于生成的物体运动产生手运动。为了提高细粒度的目标姿态对齐，我们引入了球形高斯约束来指导去噪步骤。在随后的后扩散阶段，我们使用接触一致性优化生成的手运动。我们广泛的实验突显了我们数据集的独特性和我们方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决缺乏同时捕捉凝视、手和物体运动关系的数据集的问题，并提出了一种基于凝视引导的手-物交互扩散模型，用于合成凝视引导的手-物交互动作序列。
关键思路

论文提出了一种基于凝视引导的手-物交互扩散模型，通过将两个凝视条件扩散模型堆叠在一起，简化了手-物交互动作序列的复杂合成，并通过球形高斯约束来提高目标姿态对齐的精度。
其它亮点

本文提出了第一个同时捕捉凝视、手和物体运动关系的数据集GazeHOI，并通过实验验证了所提出方法的有效性。同时，本文还提出了球形高斯约束来提高目标姿态对齐的精度。
相关研究

最近的相关研究包括《Egocentric Future Localization》、《Gaze360: Physically Unconstrained Gaze Estimation in the Wild》等。

Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method

提问交流

提问交流