GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting

2024年04月24日
  • 简介
    我们提出了GaussianTalker,这是一个实时生成可控姿态的说话头像的新框架。它利用了3D高斯喷洒(3DGS)的快速渲染能力,同时解决了直接使用语音音频控制3DGS的挑战。GaussianTalker构建了头部的规范化3DGS表示,并与音频同步变形。一个关键的洞见是将3D高斯属性编码到共享的隐式特征表示中,其中它与音频特征合并以操纵每个高斯属性。这种设计利用了空间感知特征,并强制实现相邻点之间的交互。然后将特征嵌入传递给空间音频关注模块,该模块预测每个高斯属性的帧偏移量。相比于以前的连接或乘法方法来操纵众多高斯和其复杂的参数,这种方法更加稳定。实验结果展示了GaussianTalker在面部保真度、唇部同步精度和渲染速度方面相对于以前的方法的优越性。具体而言,GaussianTalker实现了高达120 FPS的显着渲染速度,超过了以前的基准。我们的代码可在https://github.com/KU-CVLAB/GaussianTalker/上获得。
  • 图表
  • 解决问题
    GaussianTalker试图解决的问题是实时生成可控制姿势的人物头像,同时解决了直接用语音音频控制3D高斯点渲染的挑战。
  • 关键思路
    论文的解决方案是将3D高斯点渲染的属性编码成共享的隐式特征表示,并与音频特征合并以操纵每个高斯属性,然后使用空间-音频注意力模块预测每个高斯属性的帧偏移量。
  • 其它亮点
    论文的亮点包括:1.使用3D高斯点渲染技术实现了高保真度的面部表情和口型同步;2.使用共享的隐式特征表示和空间-音频注意力模块解决了控制复杂高斯点渲染属性的问题;3.实验结果显示GaussianTalker的渲染速度高达120 FPS,并且比之前的方法具有更高的面部保真度和口型同步精度。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Deep Video Portraits;2. Neural Voice Puppetry;3. GAN-based Talking Head Generation。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论