TADA! Text to Animatable Digital Avatars

解决问题:这篇论文试图解决的问题是如何从文本描述生成具有高质量几何和逼真纹理的3D角色,并且可以进行动画渲染。这是一个新问题,现有的基于文本的角色生成方法在几何和纹理质量方面存在局限性,并且由于几何和纹理之间的不一致性,尤其是在面部区域,无法实现逼真的动画。

关键思路:TADA利用2D扩散模型和可动参数化身体模型的协同作用,从SMPL-X中推导出一个可优化的高分辨率身体模型,包括3D位移和纹理映射,使用分层渲染和得分蒸馏采样(SDS)从文本创建高质量、详细、整体的3D角色。为了确保几何和纹理之间的一致性,TADA渲染生成角色的法线和RGB图像,并利用它们在SDS训练过程中的潜在嵌入。此外,TADA还引入了各种表情参数来在训练过程中变形生成的角色,确保生成的角色的语义与原始SMPL-X模型保持一致,从而实现可动的角色。

其他亮点:这篇论文的实验结果表明,TADA在定性和定量指标上都显著优于现有方法。TADA可以创建大规模的数字角色资产,这些资产已经准备好进行动画和渲染,并且可以通过自然语言进行轻松编辑。该代码将公开供研究目的使用。

关于作者:主要作者包括Tingting Liao、Hongwei Yi、Yuliang Xiu、Jiaxaing Tang、Yangyi Huang、Justus Thies和Michael J. Black。他们来自德国马克斯普朗克学会、中国科学院自动化研究所、华中科技大学和卡内基梅隆大学。Michael J. Black是计算机视觉领域的知名学者,他曾发表过多篇关于人体姿态估计和形状重建的论文。

相关研究:近期其他相关的研究包括:1)"Neural Avatar: Learning Avatar Representations from Text-based Editable Inputs",作者包括Jiashun Wang、Yi Yuan和Ying Lu,来自香港中文大学和微软亚洲研究院;2)"Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings",作者包括Xinchen Yan、Jimei Yang、Ersin Yumer、Yijie Guo和Honglak Lee,来自亚利桑那州立大学、谷歌和加州大学伯克利分校。

论文摘要:我们介绍了TADA,这是一种简单而有效的方法,它可以接受文本描述并生成具有高质量几何和逼真纹理的表情丰富的三维头像,这些头像可以使用传统的图形管线进行动画和渲染。现有的基于文本的角色生成方法在几何和纹理质量方面存在局限性,并且由于几何和纹理之间的不一致对齐,特别是在面部区域,无法实现逼真的动画效果。为了克服这些限制,TADA利用了2D扩散模型和可动态参数化身体模型的协同作用。具体而言,我们从SMPL-X中推导出一个可优化的高分辨率身体模型,包括3D位移和纹理映射,并使用分层渲染和分数蒸馏采样(SDS)从文本中创建高质量、详细、整体的3D头像。为确保几何和纹理之间的对齐,我们渲染生成角色的法线和RGB图像,并在SDS训练过程中利用它们的潜在嵌入。我们进一步引入了各种表情参数来在训练期间变形生成的角色,确保我们生成的角色的语义与原始SMPL-X模型保持一致,从而产生一个可动态的角色。全面的评估表明,TADA在定性和定量指标上都显著超过了现有的方法。TADA使得可以创建大规模的数字角色资源,这些资源可以进行动画和渲染,并且通过自然语言轻松地进行编辑。该代码将公开用于研究目的。

内容中包含的图片若涉及版权问题,请及时与我们联系删除