- 简介本研究表明,生成模型产生的合成数据与计算机图形学渲染数据相辅相成,可以在3D人体姿态和形状估计(HPS)的不同真实场景中实现卓越的泛化性能。具体而言,我们提出了一种基于最新扩散模型的有效方法,称为HumanWild,可以轻松生成人类图像和相应的3D网格注释。我们首先收集了一个大规模的以人为中心的数据集,具有全面的注释,例如文本标题和表面法线图像。然后,我们在该数据集上训练了一个定制的ControlNet模型,以生成多样化的人类图像和初始的基础真值标签。该步骤的核心在于,我们可以通过将3D网格渲染到图像平面上,轻松地从3D人体参数模型(例如SMPL-X)中获取大量表面法线图像。由于初始标签中不可避免地存在噪声,因此我们使用现成的基础分割模型(即SAM)来过滤负面数据样本。我们的数据生成流程灵活可定制,以促进不同的现实世界任务,例如自我中心场景和透视畸变场景。生成的数据集包括0.79M个图像及其相应的3D注释,覆盖了多种视角、场景和人类身份。我们在生成数据的基础上训练了各种HPS回归器,并在广泛的基准测试(3DPW、RICH、EgoBody、AGORA、SSP-3D)上对它们进行了评估,以验证生成数据的有效性。通过仅使用生成模型,我们生成了大规模的野外人类图像和高质量注释,消除了对真实世界数据采集的需求。
- 图表
- 解决问题论文旨在通过生成模型合成数据来解决3D人体姿态和形状估计中的数据不足问题,消除了对真实世界数据收集的需求。
- 关键思路论文提出了一种基于扩散模型的方法,称为HumanWild,可以轻松生成人类图像和相应的3D网格注释。该方法使用控制网络模型生成各种不同的人类图像和初始的真实标签,然后使用基于分割的过滤器过滤负数据样本。
- 其它亮点论文提出的数据生成流水线灵活且可定制,适用于不同的真实世界任务。生成的数据集包括0.79M张图像和相应的3D注释,涵盖了多种视角、场景和人物身份。实验结果表明,使用合成数据可以获得出色的泛化性能,并且消除了对真实世界数据收集的需求。
- 最近的相关研究包括:Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop (CVPR2021)、PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (CVPR2020)、SPIN: Shape Reconstruction Using Inaccurate and Noisy Data (ECCV2020)等。
沙发等你来抢
去评论

评论
沙发等你来抢