- 简介通常从文本描述创建4D头像(即动画3D头像)使用文本到图像(T2I)扩散模型来合成规范空间中的3D头像,随后应用目标动作进行动画。然而,这种优化-动画范式有几个缺点。首先,对于姿势不敏感的优化,naive Score Distillation Sampling(SDS)中规范姿势下的渲染图像显示出域间差距,并且仅使用T2I先验无法保持视图一致性。其次,对于事后动画,仅将源动作应用于目标3D头像会产生平移伪影和不对齐。为了解决这些问题,我们提出了基于骨架的文本4D头像生成和网络内动作重定向(STAR)。STAR考虑了模板网格和目标头像之间的几何和骨架差异,并通过预训练的动作重定向技术纠正了不匹配的源动作。通过信息化的重定向和遮挡感知骨架,我们采用骨架条件的T2I和文本到视频(T2V)先验,并提出了混合SDS模块以一致地提供多视角和帧一致的监督信号。因此,STAR可以以端到端的方式逐步优化几何,纹理和动作。定量和定性实验证明了我们提出的STAR可以合成与文本描述相符的高质量4D头像和生动的动画。额外的消融研究显示了STAR中每个组件的贡献。源代码和演示可在以下网址找到:\href{https://star-avatar.github.io}{https://star-avatar.github.io}。
- 图表
- 解决问题该论文试图解决从文本描述中创建4D动画化3D头像的问题,同时解决优化和动画生成中存在的问题。
- 关键思路该论文提出了一种基于骨架的文本生成4D头像的方法,使用预训练的动画重定向技术来校正不匹配的源运动,并利用骨架条件的T2I和T2V先验,提出了混合SDS模块来提供多视角和帧一致的监督信号。
- 其它亮点该论文通过实验验证了提出方法的有效性,并进行了组件分析。论文提供了代码和演示,并使用了公开数据集。
- 最近的相关研究包括:《Neural 3D Morphable Model》、《Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop》等。
沙发等你来抢
去评论
评论
沙发等你来抢