- 简介现有的3D人体物体交互(HOI)数据集和模型仅将全局描述与长的HOI序列对齐,缺乏对中间状态和状态之间转换的详细理解。本文认为,利用状态级描述的细粒度语义对齐为学习语义丰富的HOI表示提供了一种有前途的范例。为了实现这一点,我们介绍了Semantic-HOI,这是一个新的数据集,包括20K多个配对的HOI状态,每个HOI状态都有细粒度的描述以及发生在两个连续状态之间的身体运动。利用所提出的数据集,我们设计了三个状态级HOI任务,以完成HOI序列中的细粒度语义对齐。此外,我们提出了一个统一的模型F-HOI,旨在利用多模态指令,并使多模态大语言模型能够高效处理各种HOI任务。F-HOI具有多个优点:(1)它采用统一的任务公式,支持使用多种多模态输入。(2)它在2D、3D和语言空间中保持HOI的一致性。(3)它利用细粒度文本监督进行直接优化,避免了复杂的HOI状态建模。大量实验表明,F-HOI有效地对齐了带有细粒度语义描述的HOI状态,熟练地处理了理解、推理、生成和重构任务。
-
- 图表
- 解决问题本文试图解决人体物体交互数据集和模型在理解中间状态和状态转换方面的不足,提出了一种精细语义对齐的方法。
- 关键思路本文提出了一种基于状态级描述的精细语义对齐方法,利用细粒度的语义描述来学习语义丰富的人体物体交互表示。
- 其它亮点本文引入了一个新的数据集Semantic-HOI,包括20K个配对的HOI状态,每个HOI状态都有细粒度的描述和两个连续状态之间发生的身体动作。作者设计了三个状态级HOI任务,以完成HOI序列中的精细语义对齐。作者还提出了一种统一模型F-HOI,旨在利用多模态输入,支持2D、3D和语言空间的一致性,利用细粒度文本监督进行直接优化。实验表明,F-HOI能够有效地对齐HOI状态,处理理解、推理、生成和重构任务。
- 最近的相关研究包括:Visual Genome、V-COCO、HICO-DET和HOI-D。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流