GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting

简介

我们提出了GaussianTalker，这是一个实时生成可控姿态的说话头像的新框架。它利用了3D高斯喷洒（3DGS）的快速渲染能力，同时解决了直接使用语音音频控制3DGS的挑战。GaussianTalker构建了头部的规范化3DGS表示，并与音频同步变形。一个关键的洞见是将3D高斯属性编码到共享的隐式特征表示中，其中它与音频特征合并以操纵每个高斯属性。这种设计利用了空间感知特征，并强制实现相邻点之间的交互。然后将特征嵌入传递给空间音频关注模块，该模块预测每个高斯属性的帧偏移量。相比于以前的连接或乘法方法来操纵众多高斯和其复杂的参数，这种方法更加稳定。实验结果展示了GaussianTalker在面部保真度、唇部同步精度和渲染速度方面相对于以前的方法的优越性。具体而言，GaussianTalker实现了高达120 FPS的显着渲染速度，超过了以前的基准。我们的代码可在https://github.com/KU-CVLAB/GaussianTalker/上获得。
图表
解决问题

GaussianTalker试图解决的问题是实时生成可控制姿势的人物头像，同时解决了直接用语音音频控制3D高斯点渲染的挑战。
关键思路

论文的解决方案是将3D高斯点渲染的属性编码成共享的隐式特征表示，并与音频特征合并以操纵每个高斯属性，然后使用空间-音频注意力模块预测每个高斯属性的帧偏移量。
其它亮点

论文的亮点包括：1.使用3D高斯点渲染技术实现了高保真度的面部表情和口型同步；2.使用共享的隐式特征表示和空间-音频注意力模块解决了控制复杂高斯点渲染属性的问题；3.实验结果显示GaussianTalker的渲染速度高达120 FPS，并且比之前的方法具有更高的面部保真度和口型同步精度。
相关研究

在这个领域中，最近的相关研究包括：1. Deep Video Portraits；2. Neural Voice Puppetry；3. GAN-based Talking Head Generation。

GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting

评论