- 简介这篇论文介绍了AniTalker,这是一个创新的框架,旨在从单个肖像生成逼真的说话人脸。与现有的模型主要关注口型同步等口头提示不同,无法捕捉面部表情和非语言提示的复杂动态。AniTalker采用了通用的运动表示法,可以有效地捕捉各种面部动态,包括微妙的表情和头部动作。AniTalker通过两种自我监督学习策略增强运动描绘:第一种策略涉及从同一身份的源帧重建目标视频帧以学习微妙的运动表示,第二种策略使用度量学习开发身份编码器,同时积极减少身份和运动编码器之间的互信息。这种方法确保运动表示是动态的,不包含身份特定的细节,从而显著减少了标记数据的需求。此外,扩散模型和方差适配器的集成允许生成多样化和可控的面部动画。这种方法不仅展示了AniTalker创建详细和逼真的面部动作的能力,而且强调了其在为现实世界的应用程序制作动态头像方面的潜力。合成结果可以在https://github.com/X-LANCE/AniTalker上查看。
-
- 图表
- 解决问题AniTalker旨在解决现有模型在生成逼真的说话人脸时无法捕捉面部表情和非语言提示的问题。
- 关键思路AniTalker采用通用动作表示来有效捕捉广泛的面部动态,结合两种自监督学习策略和扩散模型与方差适配器,生成多样且可控的面部动画。
- 其它亮点论文提出的AniTalker框架能够从单张人像生成逼真的说话人脸,具有高度的动态性和表现力。同时,该方法减少了对有标签数据的需求,具有很大的应用潜力。论文提供了实验结果和开源代码。
- 相关研究包括但不限于:1. 用于面部动画生成的深度学习模型,如Deep Video Portraits和Avatar-Net;2. 用于自监督学习的方法,如CycleGAN和Adversarial Autoencoder。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流