EgoLifter: Open-world 3D Segmentation for Egocentric Perception

向作者提问

NEW

简介

本文介绍了一种名为EgoLifter的新系统，它可以将从自我感知传感器捕获的场景自动分割为单个3D物体的完整分解。该系统专门针对自我感知数据，其中场景包含从自然（非扫描）运动中捕获的数百个物体。EgoLifter采用3D高斯作为3D场景和物体的基本表示，并使用来自Segment Anything Model（SAM）的分割掩模作为弱监督来学习灵活和可提示的物体实例定义，不受任何特定对象分类法的限制。为了处理自我中心视频中的动态物体的挑战，我们设计了一个瞬态预测模块，学习如何过滤掉3D重建中的动态物体。结果是一个完全自动化的流水线，能够将3D物体实例重建为由3D高斯组成的集合，共同组成整个场景。我们在Aria Digital Twin数据集上创建了一个新的基准，定量地展示了它在从自然自我感知输入中进行开放世界3D分割方面的最先进性能。我们在各种自我感知活动数据集上运行EgoLifter，展示了该方法在规模化3D自我感知方面的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决从自我中心角度捕捉的场景中，自动将场景分割成单个三维物体的完整分解的问题。该方法专为自我中心数据设计，其中场景包含从自然（非扫描）运动中捕获的数百个物体。
关键思路

本文提出了一种新颖的方法，使用3D高斯分布作为三维场景和物体的基本表示，并利用Segment Anything Model (SAM)的分割掩模作为弱监督来学习灵活且可提示的物体实例定义，而不受任何特定物体分类学的限制。为了处理自我中心视频中的动态物体的挑战，设计了一个瞬态预测模块来学习过滤三维重建中的动态物体。
其它亮点

本文提出的EgoLifter系统是一个完全自动化的管道，能够将三维物体实例重建为由共同构成整个场景的三维高斯集合。作者在Aria Digital Twin数据集上创建了一个新的基准，定量证明了该方法在从自然自我中心输入中进行开放世界三维分割方面的最新性能。作者在各种自我中心活动数据集上运行了EgoLifter，展示了该方法在规模化三维自我中心感知方面的潜力。
相关研究

最近的相关研究包括：1. Learning to Segment Every Thing（LSE）；2. Neural Task Graphs for Describing and Predicting Human-Object Interactions；3. Object-Centric Learning with Slot Attention。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问