EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting

简介

人类活动本质上是复杂的，即使是简单的家务任务也涉及大量物体交互。为了更好地理解这些活动和行为，关键在于对它们与环境的动态交互进行建模。近年来，价格实惠的头戴式摄像头和自我中心数据提供了一种更易于访问和高效的手段，用于理解三维环境中动态的人-物交互。然而，大多数现有的人类活动建模方法要么专注于重建手-物或人-场景交互的三维模型，要么专注于映射三维场景，忽略了与物体的动态交互。少数现有的解决方案通常需要来自多个来源的输入，包括多摄像头设置、深度感应摄像头或肌肉感应传感器。为此，我们介绍了EgoGaussian，这是第一个能够仅从RGB自我中心输入中同时重建三维场景和动态跟踪三维物体运动的方法。我们利用高斯喷洒的离散性质，将动态交互从背景中分割出来。我们的方法采用剪辑级在线学习管道，利用人类活动的动态性质，使我们能够按时间顺序重建场景的时间演化并跟踪刚体物体运动。此外，我们的方法自动分割物体和背景高斯，为静态场景和动态物体提供三维表示。EgoGaussian在具有挑战性的野外视频中优于先前的NeRF和Dynamic Gaussian方法，我们还定性地展示了重建模型的高质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决人类活动建模中存在的问题，即如何从RGB egocentric输入中同时重建3D场景和动态跟踪3D对象运动。
关键思路

论文提出了一种名为EgoGaussian的方法，通过利用高斯点插值的离散性质，从背景中分割出动态交互，实现了从RGB egocentric输入中同时重建3D场景和动态跟踪3D对象运动。
其它亮点

该方法在野外视频中优于以前的NeRF和Dynamic Gaussian方法，同时提供了静态场景和动态对象的3D表示。该论文还展示了重建模型的高质量。实验使用了开源数据集，并提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》和《Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction》。

EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting

提问交流

提问交流