- 简介从稀疏的未标定图像集中恢复场景的三维几何结构是计算机视觉领域长期存在的一个问题。尽管近期基于学习的方法如 DUSt3R 和 MASt3R 通过直接预测密集的场景几何信息取得了令人印象深刻的效果,但它们主要是在静态的室外场景上进行训练,难以应对以人类为中心的场景。在本研究中,我们提出了 HAMSt3R,这是对 MASt3R 的扩展,用于从稀疏且未标定的多视角图像中联合进行人体与场景的三维重建。首先,我们利用 DUNE,这是一个通过对 MASt3R 以及一个先进的三维人体网格恢复模型(multi-HMR)的编码器进行蒸馏而得到的强大的图像编码器,以更好地理解场景几何结构和人体形态。接着,我们的方法引入了额外的网络分支,用于对人体进行分割、通过 DensePose 估计密集对应关系,并在以人类为中心的环境中预测深度,从而实现更全面的三维重建。通过整合各个分支的输出,HAMSt3R 能够生成一个包含三维人体语义信息的密集点云图。与依赖复杂优化流程的现有方法不同,我们的方法完全采用前馈结构,效率更高,适合实际应用。我们在 EgoHumans 和 EgoExo4D 两个包含多样化以人类为中心场景的挑战性基准数据集上评估了我们的模型。此外,我们还验证了其在传统多视角立体匹配和多视角姿态估计任务中的泛化能力。实验结果表明,我们的方法能够有效重建人体,同时在通用三维重建任务中保持优异性能,从而在三维视觉中弥合了对人体与场景理解之间的差距。
-
- 图表
- 解决问题论文旨在解决从稀疏且未校准的图像中恢复包含人体的场景的3D几何结构的问题。现有的3D重建方法在处理以人类为中心的场景时表现不佳,因此这是一个相对较新的问题。
- 关键思路论文提出HAMSt3R,这是对MASt3R的扩展,通过结合场景和人体理解的编码器(DUNE),并引入新的网络头来分割人体、估计密集对应关系(DensePose)和预测深度,从而实现对人体和场景的联合3D重建。其关键创新在于将人体语义信息融入3D重建过程,并采用端到端的前馈方式,避免了复杂的优化流程。
- 其它亮点1. 引入DUNE编码器,融合了MASt3R和multi-HMR的优势,提升了对人体和场景的理解。 2. 提出多任务网络头,支持人体分割、DensePose估计和深度预测,增强了3D重建的语义表达。 3. 完全端到端的设计,提高了效率,适合实际应用。 4. 在EgoHumans和EgoExo4D两个以人体为中心的基准数据集上进行了评估,并验证了其在传统MVS和姿态估计任务中的泛化能力。 5. 实验结果表明,该方法在保持整体3D重建性能的同时,显著提升了对人体场景的重建质量。
- 1. DUSt3R: Geometric 3D Scene Reconstruction from Diffusion Samples 2. MASt3R: Multi-View Stereo Meets End-to-End Learning 3. multi-HMR: Multi-person Human Mesh Recovery from Monocular Images 4. DensePose: Dense Human Pose Estimation In The Wild 5. NeRF: Neural Radiance Fields for 3D Reconstruction 6. PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization


提问交流