- 简介我们介绍了LatentSync,这是一种基于音频条件潜在扩散模型的端到端唇同步框架,无需任何中间运动表示,与以往基于像素空间扩散或两阶段生成的扩散型唇同步方法不同。我们的框架可以利用Stable Diffusion的强大能力,直接建模复杂的视听关联。此外,我们发现基于扩散的唇同步方法由于不同帧之间的扩散过程不一致,表现出较差的时间一致性。为此,我们提出了时间表示对齐(TREPA)技术,以增强时间一致性,同时保持唇同步的准确性。TREPA使用大规模自监督视频模型提取的时间表示,将生成的帧与真实帧对齐。此外,我们观察到了常见的SyncNet收敛问题,并进行了全面的实证研究,识别出影响SyncNet收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。我们在HDTF测试集上将SyncNet的准确性从91%提高到94%。由于我们没有改变SyncNet的整体训练框架,这些经验也可以应用于其他利用SyncNet的唇同步和音频驱动肖像动画方法。基于上述创新,我们的方法在HDTF和VoxCeleb2数据集的各种指标上均优于现有的最先进唇同步方法。
- 图表
- 解决问题论文试图解决唇形同步(lip sync)中的两个主要问题:1) 如何直接从音频生成高质量的视频帧,而不依赖于中间的运动表示;2) 如何提高生成视频帧的时间一致性。这些问题在现有的扩散模型方法中尚未得到充分解决。
- 关键思路论文提出了一种基于音频条件的潜在扩散模型(LatentSync)来直接生成高质量的唇形同步视频帧,而不需要中间的运动表示。此外,为了提高时间一致性,论文引入了Temporal Representation Alignment (TREPA) 方法,通过提取大规模自监督视频模型的时序表示来对齐生成帧和真实帧。这些创新使得模型能够更好地捕捉音频和视觉之间的复杂关联,并提高生成视频的时间一致性。
- 其它亮点1) 论文提出了一个端到端的唇形同步框架,直接在潜在空间中进行扩散,避免了中间的像素空间扩散或两阶段生成方法。 2) 引入了TREPA方法,显著提高了生成视频的时间一致性。 3) 通过改进SyncNet的训练过程,将准确率从91%提升到94%,并在HDTF测试集上取得了显著的性能提升。 4) 实验在HDTF和VoxCeleb2数据集上进行了广泛的评估,结果显示该方法在多个指标上优于现有方法。 5) 代码已开源,便于其他研究人员复现和进一步研究。
- 1) "A Hierarchical Approach for Generating Lip Sync Animations" - 提出了一种分层方法生成唇形同步动画,但依赖于中间的运动表示。 2) "LipSyncGAN: Generative Adversarial Networks for Realistic Lip Synchronization" - 使用GAN生成唇形同步视频,但在时间一致性方面存在不足。 3) "Audio-Visual Scene-Aware Dialog" - 探索了多模态对话系统中的唇形同步问题,但重点在于对话系统的整体性能。 4) "DiffTalk: High-Fidelity Audio-Visual Talking Head Generation via Diffusion Models" - 使用扩散模型生成高保真的音频-视觉说话头,但没有专门解决时间一致性问题。
沙发等你来抢
去评论
评论
沙发等你来抢