SIGGRAPH 2022上,南洋理工大学-商汤科技联合研究中心S-Lab团队提出了基于零次学习的文本驱动的三维数字人模型与动作生成方法AvatarCLIP。利用大规模视觉语言模型CLIP的跨模态能力以及可微渲染工具,AvatarCLIP实现了以自然语言输入,无需任何训练,便可高质量生成三维数字人的模型。再结合大量动作数据的预训练模型,AvatarCLIP进一步实现了以自然语言为输入的角色动作的生成。在数字人生成的任务上,AvatarCLIP相较已有方案在质量上提升明显;而基于零次学习的文本驱动的动作生成,是AvatarCLIP首次提出并给出了有效方案。

论文名称:AvatarCLIP : Zero-Shot Text-Driven Generation and Animation of 3D Avatars

图片

 

Part 1

背景

近期文本驱动的二维图像生成领域进展飞快,例如OpenAI的Dalle、Dalle2、google的Imagen,以及最近非常火的stable diffusion。借助百万量级的文字与图像的数据对,结合预训练的NLP模型,以及强大的图像生成模型diffusion model,文本驱动的二维图像生成质量已经非常惊艳。那么自然地,下一步我们会想将生成的领域进一步拓展到三维生成与动作生成(如图一所示),那该怎么做呢?

 

图片

图一

如果借鉴之前图像生成方法的成功经验,则需要大量与文本配对的三维模型或者动作数据进行有监督训练。然而,现在没有这样的数据,且很难收集,数据量也很难提升到百万量级。因此,在这篇工作中,我们选择使用零次学习的方式,即不使用任何与文本配对的数据,进行三维数字人以及动作的生成。

 

Part 2

基本原理

那么如何在不使用任何数据的情况下,凭空变出这些东西呢?我们就需要使用两个强大的工具,一个是大规模的图像文本预训练模型CLIP,另一个是可微渲染。

CLIP相信大家都比较熟悉,它的图像与文本编码器可以将两种模态的数据映射到同一个隐空间。利用这一性质,我们可以先初始化一种三维表示,如图二左侧所示。它可以是隐函数,也可以是mesh。

图片

图二

然后,利用可微渲染,渲染出对应的图像,输入CLIP的图像编码器,将得到的渲染图像特征与目标文本的特征之间计算cosine距离,以最大化cosine距离为优化目标,对三维表示进行优化。最终,我们期望优化出与目标文本相近的三维表达。

虽然这个原理相对简单,但若想要让这个算法有效成功优化出合理的三维形状以及动作,仍需要很多其它努力。

内容中包含的图片若涉及版权问题,请及时与我们联系删除