UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass

2026年01月03日
  • 简介
    我们提出UniSH,一种用于联合度量尺度下三维场景与人体重建的统一前馈框架。该领域的一个关键挑战是缺乏大规模、带标注的真实世界数据,导致研究不得不依赖合成数据集。这种依赖带来了显著的仿真到真实(sim-to-real)域间差异,使得模型在野外视频上的泛化能力差、人体几何细节失真且对齐效果不佳。为解决这一问题,我们提出了一种创新的训练范式,能够有效利用未标注的野外真实数据。我们的框架融合了来自场景重建和人体网格恢复(HMR)的强而异构的先验知识,并通过两个核心组件进行训练:(1)一种鲁棒的知识蒸馏策略,通过从专家级深度模型中蒸馏高频细节来精细化人体表面;(2)一种两阶段监督方案,首先在合成数据上学习粗略定位,然后在真实数据上进行微调,直接优化SMPL网格与人体点云之间的几何对应关系。该方法使我们的前馈模型能够在单次前向传播中联合恢复高保真的场景几何结构、人体点云、相机参数以及一致的、具有度量尺度的SMPL人体。大量实验表明,我们的模型在以人体为中心的场景重建任务上达到了最先进水平,在全局人体运动估计方面也取得了极具竞争力的结果,优于现有的基于优化的框架和仅使用HMR的方法。项目主页:https://murphylmf.github.io/UniSH/
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在缺乏大规模标注真实世界数据的情况下,如何实现高质量、度量尺度的3D场景与人体联合重建的问题。由于现有方法严重依赖合成数据,导致在真实场景中存在显著的仿真到现实(sim-to-real)域差距,从而影响人体几何细节和场景对齐的精度。这是一个长期存在的挑战,尤其在面向真实世界应用时尤为突出。
  • 关键思路
    提出UniSH,一种统一的前馈框架,通过创新的训练范式有效利用无标签的真实野外数据来弥合域差距。其核心是结合场景重建与人体网格恢复(HMR)的强先验,并引入两个关键组件:一是通过从专家深度模型蒸馏高频细节来提升人体表面质量的鲁棒蒸馏策略;二是两阶段监督方案——先在合成数据上学习粗略定位,再在真实数据上直接优化SMPL网格与人体点云之间的几何对应关系,实现端到端的联合高保真重建。
  • 其它亮点
    该方法能在单次前向传播中同时输出高保真场景几何、人体点云、相机参数和一致的度量尺度SMPL体,显著提升真实视频中的重建质量。实验设计充分,在多个基准上验证了其在人-centric 场景重建和全局人体运动估计上的SOTA性能。相比优化类方法具有更高效率,媲美HMR专用模型。项目主页已公开,代码可能开源(需查看GitHub链接)。未来可探索将此统一蒸馏+几何对齐范式推广至动态场景或多智能体交互建模。
  • 相关研究
    1. Neural Scene Flow Fields for Dynamic Scene View Synthesis 2. GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis 3. PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization 4. SMPL: A Skinned Multi-Person Linear Model 5. MonoSDF: Exploring Monocular Geometric Cues for Novel View Synthesis of Indoor Scenes 6. HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video 7. DreamWaltz: Real-world 6DoF VR with Area Expansion via Online Neural Scene Reconstruction
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问