GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting

2024年04月29日
  • 简介
    我们提出了GStalker,这是一个3D音频驱动的说话人脸生成模型,采用高斯喷洒技术进行快速训练(40分钟)和实时渲染(每秒125帧),仅需3-5分钟的视频作为训练材料。相比之下,之前的2D和3D NeRF-based建模框架需要数小时的训练和每帧数秒的渲染时间。具体来说,GStalker学习了一个音频驱动的高斯变形场,将3D高斯函数进行平移和变换,使其与音频信息同步。其中,采用了多分辨率哈希网格三平面和时间平滑模块,以学习精细的面部细节变形。此外,还设计了一个姿势条件变形场,用于建模稳定的躯干。为了实现条件高斯变形场的高效优化,我们通过学习粗略的静态高斯表示来初始化3D高斯函数。在具有音频轨道的人物特定视频上进行的大量实验验证了,GStalker可以生成高保真度和音频唇形同步的结果,且训练速度快,渲染速度实时。
  • 图表
  • 解决问题
    本论文的问题是如何快速训练和实时渲染3D音频驱动的人脸生成模型,以实现高保真度和音频同步。这是一个新问题。
  • 关键思路
    本论文的关键思路是使用高斯喷洒技术来学习音频驱动的高斯变形场,以便将3D高斯与音频信息同步。同时,使用多分辨率哈希网格和时间平滑模块来学习精细面部细节的准确变形。此外,设计了姿态条件的变形场来模拟稳定的躯干。
  • 其它亮点
    本论文的亮点包括快速训练和实时渲染速度、高保真度和音频同步、使用高斯喷洒技术来学习音频驱动的高斯变形场、多分辨率哈希网格和时间平滑模块来学习精细面部细节的准确变形、姿态条件的变形场来模拟稳定的躯干。实验使用了个人特定的视频和音频轨道,并证明了该模型的有效性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如NeRF模型和2D/3D面部表情合成技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论