Diff2Lip：音频条件下的扩散模型，用于唇同步。

Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization

解决问题：该论文旨在解决唇同步（lip-sync）问题，即如何将不同音频的人类面部的唇部与之匹配。这是一个具有挑战性的问题，需要在保持身份、姿势、情感和图像质量的同时引入详细、逼真的唇部运动。该论文的目的是通过提出一种基于扩散模型的音频条件模型，解决唇同步问题。

关键思路：该论文的关键思路是使用扩散模型，通过音频信息来生成唇部运动，以实现唇同步。相比之前的研究，该论文的思路在于使用扩散模型，从而在保持图像质量的同时，提高了唇同步的效果。

其他亮点：该论文的实验使用了Voxceleb2和LRW数据集，并通过广泛的研究表明，Diff2Lip方法在Fr\'echet inception distance（FID）指标和用户的平均意见分数（MOS）方面优于流行方法Wav2Lip和PC-AVS。此外，该论文还提供了视频结果和代码。

关于作者： Soumik Mukhopadhyay、Saksham Suri、Ravi Teja Gadde和Abhinav Shrivastava是该论文的主要作者。他们都来自美国的普林斯顿大学。Soumik Mukhopadhyay之前的代表作包括“Leveraging Visual Question Answering for Unsupervised Video Summarization”；Saksham Suri之前的代表作包括“Towards Real-time Lip-sync with Streaming Audio”；Ravi Teja Gadde之前的代表作包括“Learning to Separate Object Sounds by Watching Unlabeled Video”；Abhinav Shrivastava之前的代表作包括“Learning from Simulated and Unsupervised Images through Adversarial Training”。

相关研究：近期其他相关的研究包括：“Talking-head Generation conditioned on Face Pose and Emotion”（作者：Yi Zhou、Zhenyu Zhang、Songhua Xu，机构：南京大学）；“Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion”（作者：Shangzhe Wu、Yue Deng、Yong Liu，机构：中山大学）；“Lip Reading in the Wild using ResNet-50 and Deep Convolutional Neural Networks”（作者：Zhihong Zhang、Yue Lu、Jian Yang，机构：南京邮电大学）。

论文摘要：本文介绍了Diff2Lip，一种基于扩散的音频条件模型，能够在保持身份、姿态、情感和图像质量的同时，在野外进行唇部同步。我们在Voxceleb2上训练模型，这是一个包含野外说话面部视频的数据集。广泛的研究表明，我们的方法在Fr\'echet inception距离（FID）指标和用户的平均意见分数（MOS）方面优于流行的方法，如Wav2Lip和PC-AVS。我们展示了在Voxceleb2和LRW数据集上的重建（相同的音频-视频输入）和交叉（不同的音频-视频输入）设置的结果。我们的项目页面（https://soumik-kanad.github.io/diff2lip）提供了视频结果和代码。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Diff2Lip：音频条件下的扩散模型，用于唇同步。

评论列表

评论