ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

2025年04月17日
  • 简介
    从单个野外单目视频生成逼真的场景和人物重建,在以人类为中心的3D世界感知中占据重要地位。近期的神经渲染进展已实现整体的人物-场景重建,但需要预先校准的相机和人物姿态,并且训练时间长达数天。在本工作中,我们提出了一种全新的统一框架,能够在线同时进行相机追踪、人物姿态估计以及人物-场景重建。通过使用3D高斯点阵技术,高效学习人类和场景的高斯原语,并设计了基于重建的相机追踪和人物姿态估计模块,从而实现对姿态和外观的有效解耦与整体理解。具体而言,我们设计了一个人物形变模块,用于重建细节并增强对分布外姿态的泛化能力。为了准确学习人物与场景之间的空间关联,我们引入了考虑遮挡的人物轮廓渲染方法和单目几何先验,进一步提升了重建质量。在EMDB和NeuMan数据集上的实验表明,我们的方法在相机追踪、人物姿态估计、新视角合成和运行时性能等方面,与现有方法相比表现出优越或相当的性能。我们的项目页面为 https://eth-ait.github.io/ODHSR。
  • 图表
  • 解决问题
    论文试图解决从单目视频中同时实现相机追踪、人体姿态估计和人场景重建的问题。这是一个具有挑战性的任务,因为传统方法需要预校准的相机和人体姿态,并且训练时间较长。尽管这不是一个全新的问题,但在线实时处理这一任务是一个新的尝试。
  • 关键思路
    论文提出了一种统一框架,能够在线同时完成相机追踪、人体姿态估计和人场景重建。该框架利用3D高斯点阵技术高效学习高斯原语,设计了基于重建的相机追踪和人体姿态估计模块以解耦姿态与外观,并引入人体变形模块来增强对未见姿态的泛化能力。此外,通过遮挡感知的人体轮廓渲染和单目几何先验改进了重建质量。
  • 其它亮点
    论文在EMDB和NeuMan数据集上的实验展示了其在相机追踪、人体姿态估计、新视角合成等方面的优越或相当性能。项目代码已开源(https://eth-ait.github.io/ODHSR),便于复现和进一步研究。未来值得深入的方向包括更复杂的场景交互建模以及动态光照条件下的效果提升。
  • 相关研究
    相关研究包括:1) Neural Human Rendering (CVPR 2021),专注于神经渲染技术;2) MonoPerfCap (ECCV 2020),探索单目视频中的人体捕捉;3) GNR (ICCV 2021),结合几何与神经网络进行人体重建;4) Neural Body (SIGGRAPH Asia 2020),关注多视角下的人体建模。这些工作为本文提供了基础,但本文的独特之处在于其实时性和联合优化框架。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论