VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

简介

我们介绍了VASA框架，它可以在给定单张静态图像和语音音频剪辑的情况下生成具有吸引力的视觉情感技能（VAS）的逼真说话人脸。我们的首款模型VASA-1不仅可以产生与音频精密同步的唇部动作，还可以捕捉大量面部微妙差别和自然头部运动，这些都有助于产生真实和生动的感觉。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型，以及使用视频开发这样一个富有表现力和解缰的面部潜在空间。通过包括对一组新度量标准的评估在内的广泛实验，我们展示了我们的方法在各个方面都显著优于以前的方法。我们的方法不仅可以提供高质量的视频和逼真的面部和头部动态，还支持在线生成512x512的视频，最高可达40 FPS，启动延迟可忽略。它为模拟人类对话行为的逼真化身实现实时互动铺平了道路。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

生成逼真的说话脸部动画
关键思路

使用静态图像和语音音频片段生成具有吸引力的视觉情感技能（VAS）的逼真说话脸部动画，通过使用视频开发表达和分离的面部潜空间，综合性地提高了各个维度的表现
其它亮点

该方法不仅能够提供高质量的视频，还支持生成512x512的视频，每秒最高可达40 FPS，几乎没有启动延迟，为模拟人类对话行为的逼真化头像的实时互动铺平了道路
相关研究

相关研究包括Deep Video Portraits、Few-Shot Adversarial Learning of Realistic Neural Talking Head Models等

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

提问交流

提问交流