RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

简介

我们推出了RodinHD，它可以从一张肖像图片生成高保真的3D头像。现有的方法无法捕捉复杂的细节，例如发型，而我们在本文中解决了这个问题。我们首先确定了一个被忽视的问题，即在许多头像上连续拟合三面体时出现的灾难性遗忘问题，这是由于MLP解码器共享方案造成的。为了克服这个问题，我们提出了一种新的数据调度策略和权重合并正则化项，这提高了解码器呈现更锐利细节的能力。此外，我们通过计算一个更精细的分层表示来优化肖像图像的引导效果，该表示捕捉了丰富的2D纹理线索，并通过交叉注意力在多个层次注入到3D扩散模型中。当在46K个头像上训练，并使用针对三面体优化的噪声调度时，所得到的模型可以生成比以前的方法更具有显著细节的3D头像，并且可以推广到野外肖像输入。
图表
解决问题

本论文旨在解决从肖像图像生成高保真度的3D头像时，现有方法无法捕捉复杂细节（如发型）的问题。
关键思路

论文提出了一种新的数据调度策略和权重整合正则化项，以解决在许多头像上顺序拟合三面体时出现的灾难性遗忘问题。此外，通过计算更细粒度的分层表示，并通过交叉注意力在多个层次将其注入到3D扩散模型中，优化了肖像图像的引导效果。
其它亮点

论文使用了46K个头像进行训练，并针对三面体进行了噪声调度优化。结果表明，与以前的方法相比，生成的3D头像具有更好的细节，并且可以适用于野外肖像输入。值得注意的是，论文提出的数据调度策略和权重整合正则化项是解决灾难性遗忘问题的新思路。
相关研究

最近的相关研究包括“PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization”和“DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation”。

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

评论