- 简介我们提出了GaussianTalker,这是一个实时生成可控姿态的说话头像的新框架。它利用了3D高斯喷洒(3DGS)的快速渲染能力,同时解决了直接使用语音音频控制3DGS的挑战。GaussianTalker构建了头部的规范化3DGS表示,并与音频同步变形。一个关键的洞见是将3D高斯属性编码到共享的隐式特征表示中,其中它与音频特征合并以操纵每个高斯属性。这种设计利用了空间感知特征,并强制实现相邻点之间的交互。然后将特征嵌入传递给空间音频关注模块,该模块预测每个高斯属性的帧偏移量。相比于以前的连接或乘法方法来操纵众多高斯和其复杂的参数,这种方法更加稳定。实验结果展示了GaussianTalker在面部保真度、唇部同步精度和渲染速度方面相对于以前的方法的优越性。具体而言,GaussianTalker实现了高达120 FPS的显着渲染速度,超过了以前的基准。我们的代码可在https://github.com/KU-CVLAB/GaussianTalker/上获得。
- 图表
- 解决问题GaussianTalker试图解决的问题是实时生成可控制姿势的人物头像,同时解决了直接用语音音频控制3D高斯点渲染的挑战。
- 关键思路论文的解决方案是将3D高斯点渲染的属性编码成共享的隐式特征表示,并与音频特征合并以操纵每个高斯属性,然后使用空间-音频注意力模块预测每个高斯属性的帧偏移量。
- 其它亮点论文的亮点包括:1.使用3D高斯点渲染技术实现了高保真度的面部表情和口型同步;2.使用共享的隐式特征表示和空间-音频注意力模块解决了控制复杂高斯点渲染属性的问题;3.实验结果显示GaussianTalker的渲染速度高达120 FPS,并且比之前的方法具有更高的面部保真度和口型同步精度。
- 在这个领域中,最近的相关研究包括:1. Deep Video Portraits;2. Neural Voice Puppetry;3. GAN-based Talking Head Generation。
沙发等你来抢
去评论
评论
沙发等你来抢