CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images

向作者提问

NEW

简介

我们提出了一种新颖的框架，用于从多张图像中重建可动人体化身，称为CanonicalFusion。我们的核心概念涉及将个体重建结果集成到规范空间中。具体而言，我们首先使用共享编码器双解码器网络预测线性混合蒙皮（LBS）权重图和深度图，从预测的深度图直接将3D网格规范化。在这里，我们不是预测高维蒙皮权重，而是利用预训练的MLP网络推断压缩蒙皮权重，即3维向量。我们还引入了一种基于前向蒙皮的可微渲染方案，以合并来自多个图像的重建结果。该方案通过前向蒙皮重新调整规范化网格，通过最小化渲染和预测结果之间的光度和几何误差来改进初始网格。我们的优化方案考虑了每个图像的顶点位置和颜色以及关节角度，从而减轻了姿势误差的负面影响。我们进行了广泛的实验，以证明我们的方法的有效性，并将我们的CanonicalFusion与最先进的方法进行了比较。我们的源代码可在https://github.com/jsshin98/CanonicalFusion上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是如何从多个图像中重建可动人体化身，以及如何将个体重建结果整合到规范空间中。这是一个新问题。
关键思路

本文的关键思路是使用共享编码器-双解码器网络预测线性混合蒙皮权重图和深度图，并使用预训练的MLP网络推断压缩蒙皮权重，从而实现直接从预测的深度图中规范化3D网格。此外，还引入了一种基于正向蒙皮的可微分渲染方案，通过重新定位规范化网格和最小化渲染和预测结果之间的光度和几何误差来优化重建结果。
其它亮点

本文的亮点包括：1.使用共享编码器-双解码器网络预测线性混合蒙皮权重图和深度图，从而实现直接从预测的深度图中规范化3D网格；2.引入了一种基于正向蒙皮的可微分渲染方案，通过重新定位规范化网格和最小化渲染和预测结果之间的光度和几何误差来优化重建结果；3.在多个数据集上进行了广泛的实验，并将CanonicalFusion与现有方法进行了比较；4.提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1. Deep3DFaceReconstruction: Joint Reconstruction of 3D Face Shape and Texture from a Single Image；2. 3D Human Pose and Shape Estimation from Multi-View Images by Regression and Classification；3. Multi-View 3D Human Pose Estimation and Action Recognition Using Multi-View RGB-D Data。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问