GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation
解决问题:该论文旨在解决数字人类和元宇宙领域中的重要问题,即如何利用音频生成具有任意语音的说话人头像。该论文提出了一种新的方法,旨在实现泛化音频唇同步、良好的视频质量和高效的系统性能。
关键思路:该论文的关键思路包括三个方面:1)利用音高轮廓作为辅助特征,并在面部运动预测过程中引入时间损失,以实现唇语的高时空一致性和准确性;2)提出一种地标局部线性嵌入方法,以调节预测运动序列中的异常值,避免鲁棒性问题;3)设计了一种计算效率高的基于NeRF的运动到视频渲染器,实现快速训练和实时推理。相比当前领域的研究状况,该论文的思路有新意,能够在泛化音频唇同步、视频质量和系统效率方面获得更好的性能。
其他亮点:该论文的实验设计充分,使用了多个数据集进行测试,还提供了开源代码和视频样本。该论文的方法在泛化音频唇同步、视频质量和系统效率方面表现出色,值得进一步深入研究。
关于作者:该论文的主要作者分别是叶振辉、何锦铮、姜子越、黄荣杰、黄家伟、刘靖霖、任毅、尹翔。他们分别来自不同的机构,包括香港中文大学、华南理工大学、南京理工大学等。根据我的数据库,他们之前的代表作包括“Neural Radiance Fields for Unconstrained Photo Collections”、“Deep Learning Face Attributes in the Wild”、“Learning Deep Structured Active Contours End-to-End”。
相关研究:近期其他相关的研究包括“Talking Head Anime from a Single Image”(来自The University of Tokyo)、“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”(来自斯坦福大学)等。
论文摘要:本文介绍了一种名为GeneFace++的方法,用于解决数字人类和元宇宙领域中的关键问题:如何利用任意语音音频生成说话人肖像。现代的说话人脸生成方法需要实现以下目标:通用的音频唇形同步、良好的视频质量和高效的系统性能。最近,神经辐射场(NeRF)已成为该领域中一种流行的渲染技术,因为它可以通过几分钟的训练视频实现高保真度和三维一致的说话人脸生成。然而,基于NeRF的方法仍然存在一些挑战:1)对于唇形同步,很难生成高时序一致性和音频唇形准确性的长面部运动序列;2)对于视频质量,由于训练渲染器使用的数据有限,它容易受到域外输入条件的影响,并偶尔产生糟糕的渲染结果;3)对于系统效率,普通的NeRF的训练和推断速度缓慢,严重阻碍了其在实际应用中的使用。本文通过以下方式解决这些挑战:1)利用语调轮廓作为辅助特征,并在面部运动预测过程中引入时间损失;2)提出一种地标局部线性嵌入方法,以调节预测运动序列中的异常值,避免鲁棒性问题;3)设计了一种计算效率高的基于NeRF的运动到视频渲染器,以实现快速训练和实时推断。在这些设置下,GeneFace++成为了第一个实现稳定和实时通用音频唇形同步的NeRF方法。广泛的实验表明,我们的方法在主观和客观评估方面优于现有的基线。视频样本可在https://genefaceplusplus.github.io上获取。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢