- 简介在本研究中,我们介绍了一种利用三维人体参数模型和潜在扩散框架来实现人物图像动画的方法,以增强当前人类生成技术中的形状对齐和动作指导。该方法利用SMPL(Skinned Multi-Person Linear)模型作为三维人体参数模型,建立了一个统一的身体形状和姿势表示。这有助于从源视频准确捕捉复杂的人体几何和运动特征。具体而言,我们结合了从SMPL序列中获得的渲染深度图像、法线图和语义图,以及基于骨骼的运动指导,丰富了潜在扩散模型的条件,使其具有全面的三维形状和详细的姿势属性。采用了多层运动融合模块,集成了自注意机制,以在空间域中融合形状和运动潜在表示。通过将三维人体参数模型表示为运动指导,我们可以在参考图像和源视频运动之间执行参数形状对齐的操作。在基准数据集上进行的实验评估表明,该方法具有生成高质量人物动画的卓越能力,可以准确捕捉姿势和形状变化。此外,我们的方法还展现了在提出的野外数据集上具有卓越的泛化能力。项目页面:https://fudan-generative-vision.github.io/champ。
- 图表
- 解决问题本论文旨在通过利用三维人体参数模型和潜在扩散框架来增强当前人类生成技术中的形状对齐和运动指导,从而实现人像动画。
- 关键思路本文的关键思路是将SMPL模型作为三维人体参数模型,将渲染的深度图像、法线图和语义图与基于骨架的运动指导相结合,通过多层运动融合模块进行形状和运动潜在表示的融合,从而实现对人体形状和姿态变化的准确捕捉。
- 其它亮点论文使用了SMPL模型作为三维人体参数模型,通过渲染的深度图像、法线图和语义图以及基于骨架的运动指导来实现对人体形状和姿态变化的准确捕捉;通过多层运动融合模块进行形状和运动潜在表示的融合,提高了生成的人像动画的质量;论文在基准数据集和野外数据集上进行了实验,结果表明该方法具有较强的生成能力和泛化能力。
- 最近在这个领域中的相关研究包括:1.《Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop》;2.《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》;3.《DeepCap: Monocular Human Performance Capture Using Weak Supervision》等。
沙发等你来抢
去评论
评论
沙发等你来抢