Synthetic Prior for Few-Shot Drivable Head Avatar Inversion

向作者提问

NEW

简介

我们介绍了SynShot，这是一种基于合成先验的可控头像驱动模型的小样本逆向方法。我们解决了两个主要挑战。首先，训练一个可控制的3D生成网络需要大量的多样化序列，而这些序列并不总是能够提供图像和高质量跟踪网格的配对。其次，最先进的单目头像模型在推广到新视角和表情时表现不佳，缺乏强有力的先验信息，并且常常过度拟合到特定的视角分布。受仅使用合成数据训练的机器学习模型的启发，我们提出了一种从包含多样身份、表情和视角的大量合成头部数据集中学习先验模型的方法。通过少量输入图像，SynShot 对预训练的合成先验进行微调，以弥合领域差距，建模出可以推广到新表情和视角的逼真头像。我们使用3D高斯点阵和卷积编码器-解码器来建模头像，该解码器在UV纹理空间中输出高斯参数。为了应对头部不同部分（例如皮肤与头发）建模复杂度的不同，我们在先验中嵌入了显式的上采样控制，以增加每个部分的基本元素数量。相比于需要数千张真实训练图像的最先进单目方法，SynShot 在新视角和表情合成方面有显著改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决两个主要问题：首先，训练一个可控的3D生成网络需要大量的多样化序列数据，但现实中很难获得配对的图像和高质量追踪网格。其次，现有的单目头像模型在推广到新视角和表情时表现不佳，缺乏强先验信息且容易过拟合到特定视角分布。这是否是一个新问题？是的，尽管之前的研究已经尝试过通过真实数据来改进头像建模，但在利用合成数据来克服数据稀缺性和提高泛化能力方面，SynShot提出了新的解决方案。
关键思路

关键思路在于使用大规模合成数据集来预训练一个先验模型，该模型包含多样化的身份、表情和视角。然后，通过少量输入图像微调这个预训练的合成先验，以弥合领域差距，生成逼真的头像，并能够推广到新的表达和视角。相比现有研究，SynShot的独特之处在于它依赖于合成数据而非真实数据进行预训练，从而解决了数据获取难题并增强了模型的泛化能力。
其它亮点

论文的其他亮点包括采用3D高斯样条和卷积编码器-解码器结构，在UV纹理空间输出高斯参数；引入了针对不同头部区域（如皮肤与头发）的显式控制机制，用于调整每部分的基本元素数量。实验设计上，SynShot仅需少量真实图像即可实现比现有方法更好的新视图和表情合成效果。此外，作者提供了开源代码，便于后续研究者复现和扩展工作。值得继续深入研究的方向包括进一步优化合成数据的质量和多样性，探索更多类型的3D表示方法。
相关研究

最近在这个领域的相关研究还包括《Neural Volumes: Learning Dynamic Neural Scene Representations from Sparse Time-of-Flight Sensors》、《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》以及《Monocular 3D Face Reconstruction via Deep Neural Networks》等。这些研究都在试图改善3D人脸重建和表情合成的效果，但大多数仍依赖大量真实数据或专注于特定场景下的优化。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问