- 简介近期使用神经辐射场(NeRF)进行音频驱动的说话人合成的研究取得了令人印象深刻的成果。然而,由于NeRF隐式表示引起的姿势和表情控制不足,这些方法仍然存在一些限制,例如不同步或不自然的唇部运动,以及视觉抖动和伪影。本文提出了一种新的方法,称为GaussianTalker,它是基于3D高斯喷洒的音频驱动的说话人合成。通过3D高斯的显式表示属性,将高斯绑定到3D面部模型上,实现了面部运动的直观控制。GaussianTalker由两个模块组成,即说话人特定的运动翻译器和动态高斯渲染器。说话人特定的运动翻译器通过通用音频特征提取和定制唇部运动生成实现了特定于目标说话人的准确唇部运动。动态高斯渲染器通过潜在姿势引入说话人特定的混合形状,以增强面部细节表示,提供稳定和逼真的渲染视频。广泛的实验结果表明,GaussianTalker在说话人合成方面优于现有的最先进方法,可以实现精确的唇部同步和卓越的视觉质量。我们的方法在NVIDIA RTX4090 GPU上实现了每秒130帧的渲染速度,显著超过了实时渲染性能的阈值,并且可以在其他硬件平台上部署。
-
- 图表
- 解决问题解决问题:论文提出一种新的基于3D高斯喷洒的语音驱动头像合成方法,旨在解决现有方法中由于NeRF隐式表示导致的姿势和表情控制不足的问题,例如嘴唇不同步或不自然的运动,视觉抖动和伪影等。
- 关键思路关键思路:论文中提出的方法是通过将高斯函数绑定到3D人脸模型上,实现对面部运动的直观控制。该方法包括两个模块:基于说话者的运动转换器和动态高斯渲染器。前者通过通用音频特征提取和定制唇部运动生成实现针对目标说话者的准确唇部运动。后者通过引入基于说话者的混合形状来增强面部细节表示,通过潜在姿势提供稳定和逼真的渲染视频。
- 其它亮点其他亮点:实验结果表明,与现有最先进的方法相比,GaussianTalker在头像合成方面具有更高的精度和视觉质量。该方法在NVIDIA RTX4090 GPU上实现了130 FPS的渲染速度,显著超过了实时渲染性能的阈值,并且可以潜在地部署在其他硬件平台上。
- 相关研究:最近在这个领域中,还有一些相关的研究,例如NeRF等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流