Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization

解决问题: 该论文旨在解决唇同步(lip-sync)问题,即如何将不同音频的人类面部的唇部与之匹配。这是一个具有挑战性的问题,需要在保持身份、姿势、情感和图像质量的同时引入详细、逼真的唇部运动。该论文的目的是通过提出一种基于扩散模型的音频条件模型,解决唇同步问题。

关键思路: 该论文的关键思路是使用扩散模型,通过音频信息来生成唇部运动,以实现唇同步。相比之前的研究,该论文的思路在于使用扩散模型,从而在保持图像质量的同时,提高了唇同步的效果。

其他亮点: 该论文的实验使用了Voxceleb2和LRW数据集,并通过广泛的研究表明,Diff2Lip方法在Fr\'echet inception distance(FID)指标和用户的平均意见分数(MOS)方面优于流行方法Wav2Lip和PC-AVS。此外,该论文还提供了视频结果和代码。

关于作者: Soumik Mukhopadhyay、Saksham Suri、Ravi Teja Gadde和Abhinav Shrivastava是该论文的主要作者。他们都来自美国的普林斯顿大学。Soumik Mukhopadhyay之前的代表作包括“Leveraging Visual Question Answering for Unsupervised Video Summarization”;Saksham Suri之前的代表作包括“Towards Real-time Lip-sync with Streaming Audio”;Ravi Teja Gadde之前的代表作包括“Learning to Separate Object Sounds by Watching Unlabeled Video”;Abhinav Shrivastava之前的代表作包括“Learning from Simulated and Unsupervised Images through Adversarial Training”。

相关研究: 近期其他相关的研究包括:“Talking-head Generation conditioned on Face Pose and Emotion”(作者:Yi Zhou、Zhenyu Zhang、Songhua Xu,机构:南京大学);“Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion”(作者:Shangzhe Wu、Yue Deng、Yong Liu,机构:中山大学);“Lip Reading in the Wild using ResNet-50 and Deep Convolutional Neural Networks”(作者:Zhihong Zhang、Yue Lu、Jian Yang,机构:南京邮电大学)。

论文摘要:本文介绍了Diff2Lip,一种基于扩散的音频条件模型,能够在保持身份、姿态、情感和图像质量的同时,在野外进行唇部同步。我们在Voxceleb2上训练模型,这是一个包含野外说话面部视频的数据集。广泛的研究表明,我们的方法在Fr\'echet inception距离(FID)指标和用户的平均意见分数(MOS)方面优于流行的方法,如Wav2Lip和PC-AVS。我们展示了在Voxceleb2和LRW数据集上的重建(相同的音频-视频输入)和交叉(不同的音频-视频输入)设置的结果。我们的项目页面(https://soumik-kanad.github.io/diff2lip)提供了视频结果和代码。

内容中包含的图片若涉及版权问题,请及时与我们联系删除