- 简介创造逼真、自然且可辨认的说话脸部视频仍然是一个艰巨的挑战。以往的研究主要集中在生成和对齐单帧图像,而忽视了帧与帧之间的平滑过渡和时间依赖性。这经常损害了视觉质量和效果,在处理复杂的面部数据和音频内容时尤为如此,这经常导致语义上不协调的视觉幻觉。具体来说,合成视频通常会出现杂乱无序的唇部运动,使其难以理解和识别。为了克服这些限制,本文介绍了应用光流来引导面部图像生成,增强帧与帧之间的连续性和语义一致性。我们提出了一种新方法“OpFlowTalker”,它利用从音频输入预测的光流变化来代替直接的图像预测。这种方法平滑了图像转换并将变化与语义内容对齐。此外,它采用了一种序列融合技术来替代单帧的独立生成,从而保留上下文信息并保持时间上的连贯性。我们还开发了一个光流同步模块,调节全脸和唇部运动,通过平衡区域动态来优化视觉合成。此外,我们引入了一个“视觉文本一致性分数(VTCS)”,用于准确测量合成视频中的唇读能力。广泛的实证证据验证了我们方法的有效性。
- 图表
- 解决问题如何生成逼真的、自然的、可读唇语的人脸视频?
- 关键思路使用光流来引导面部图像生成,增强帧与帧之间的连续性和语义一致性。
- 其它亮点论文提出了一种新的方法OpFlowTalker,该方法利用从音频输入预测的光流变化而不是直接图像预测,平滑图像转换并将变化与语义内容对齐。此外,还开发了光流同步模块来平衡全脸和唇部运动。论文还引入了一种可视文本一致性评分(VTCS)来准确衡量合成视频中的唇读性。
- 最近的相关研究包括:《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》、《Talking Head Anime from a Single Image》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢