- 简介传统的基于GAN的头像生成模型经常受到质量有限和不稳定训练的困扰。最近基于扩散模型的方法旨在解决这些限制并提高保真度。然而,它们仍然面临着挑战,包括广泛的采样时间和由于扩散模型的高随机性而难以保持时间一致性。为了克服这些挑战,我们提出了一种新颖的运动解缠扰扩散模型,用于高质量的头像生成,称为MoDiTalker。我们引入了两个模块:音频到运动(AToM),旨在从音频生成同步的唇部运动,以及运动到视频(MToV),旨在根据生成的运动产生高质量的头部视频。 AToM通过利用音频注意机制,擅长捕捉微妙的唇部运动。此外,MToV通过利用高效的三平面表示增强了时间一致性。我们在标准基准测试上进行的实验表明,我们的模型相比现有模型具有优越的性能。我们还提供了全面的消融研究和用户研究结果。
- 图表
- 解决问题本论文旨在提出一种新的运动分解扩散模型,名为MoDiTalker,用于高质量的说话人头部生成。该模型旨在解决现有基于GAN的模型在生成说话人头部时存在的质量有限和训练不稳定等问题。同时,该模型还试图解决扩散模型存在的采样时间长和难以保持时间一致性的问题。
- 关键思路该论文提出了两个模块:音频到运动(AToM)和运动到视频(MToV)。AToM模块通过利用音频注意机制来捕捉微妙的唇部运动,从而生成同步的唇部运动。而MToV模块则通过利用高效的三平面表示来增强时间一致性,从而生成高质量的头部视频。
- 其它亮点该论文通过在标准基准测试上进行实验,证明了MoDiTalker模型相对于现有模型具有更优越的性能。此外,该论文还提供了全面的消融研究和用户研究结果。
- 在这个领域中,最近还有一些相关的研究。例如,2020年的论文《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》和2019年的论文《Everybody's Talkin': Letting Neural Networks Communicate》等。
沙发等你来抢
去评论
评论
沙发等你来抢