EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views

2024年05月22日
  • 简介
    理解自我中心的人-物互动(HOI)是人类中心感知的基本方面,有助于应用如AR/VR和具身化人工智能。对于自我中心的HOI,除了感知语义,例如,“正在发生什么”之外,捕获交互特定在3D空间中的“位置”也是至关重要的,这将链接感知和操作。现有的方法主要利用HOI的观察结果从外心视角捕获交互区域。然而,自我中心视角下交互方的不完整观察结果会引入视觉观察和交互内容之间的歧义,损害它们的效力。从自我中心视角出发,人类将视觉皮层、小脑和大脑整合起来,内化他们的意图和对象的交互概念,使其能够预先制定交互并在交互区域不可见时进行行为。鉴于此,我们提出了一种协调视觉外观、头部运动和3D对象的方法,以挖掘对象交互概念和主体意图,从自我中心视频中联合推断3D人类接触和对象可供性。为了实现这一目标,我们提出了EgoChoir,它将对象结构与外观和头部运动中固有的交互上下文联系起来,揭示对象可供性,并进一步利用它来建模人类接触。此外,采用梯度调制来采用适当的线索,以跨越各种自我中心场景捕获交互区域。此外,从Ego-Exo4D和GIMO收集的自我中心视频进行了3D接触和可供性注释,以支持任务。对它们的广泛实验表明了EgoChoir的有效性和优越性。代码和数据将会公开。
  • 图表
  • 解决问题
    本文旨在解决人物与物体互动的问题,尤其是从自我中心视角观察时,如何准确地捕捉互动的位置和语义。
  • 关键思路
    本文提出了一种名为EgoChoir的方法,通过将视觉外观、头部运动和3D对象相结合,从自我中心视角的视频中联合推断人体接触和物体可负担性,并利用渐变调制来捕捉不同场景下的互动区域。
  • 其它亮点
    本文的亮点包括使用Ego-Exo4D和GIMO数据集注释了自我中心视角视频中的3D接触和可负担性;实验结果表明EgoChoir方法的有效性和优越性;同时,作者也会公开代码和数据集。
  • 相关研究
    近期的相关研究包括:1. “Egocentric Object Detection and Segmentation with a Constrained CNN and Loss”;2. “Egocentric Vision: Visual Recognition Using First-Person Images”;3. “Egocentric Hand Detection”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论