OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance

2024年05月23日
  • 简介
    创造逼真、自然且可读唇的说话面部视频仍然是一个艰巨的挑战。以往的研究主要集中在生成和对齐单帧图像,而忽略了帧与帧之间的平滑过渡和时间依赖性。这经常会在实际环境中影响视觉质量和效果,特别是在处理复杂的面部数据和音频内容时,往往会导致语义不相符的视觉错觉,尤其是合成视频通常会出现混乱的唇部运动,使其难以理解和识别。为了克服这些限制,本文介绍了光流应用于引导面部图像生成的方法,增强帧与帧之间的连续性和语义一致性。我们提出了一种新的方法“OpFlowTalker”,它利用从音频输入预测的光流变化,而不是直接的图像预测。这种方法平滑了图像的转换,并将变化与语义内容对齐。此外,它采用了一种序列融合技术来替代单帧的独立生成,从而保留了上下文信息并保持了时间上的连贯性。我们还开发了一个光流同步模块,用于调节全脸和唇部运动,通过平衡区域动态来优化视觉合成。此外,我们引入了一个“视觉文本一致性得分(VTCS)”,用于准确地测量合成视频中的唇读能力。大量的实证证据验证了我们的方法的有效性。
  • 图表
  • 解决问题
    本论文旨在解决生成逼真、自然、可读唇语的人脸视频的问题。先前的研究主要集中在生成和对齐单帧图像,而忽略了帧间过渡的平滑性和时间依赖性,这经常导致在处理复杂的面部数据和音频内容时出现语义不一致的视觉幻觉。
  • 关键思路
    本论文提出了一种新方法,利用光流来引导面部图像生成,增强帧间连续性和语义一致性。该方法通过预测从音频输入中得出的光流变化,而不是直接预测图像,从而平滑图像过渡并将其与语义内容对齐。此外,它采用序列融合技术来替换单帧的独立生成,从而保留上下文信息和保持时间连贯性。
  • 其它亮点
    本论文的亮点包括光流同步模块,它调节全脸和唇部运动,通过平衡区域动态来优化视觉合成;以及引入了一种名为VTCS的视觉文本一致性分数,可以准确地测量合成视频中的唇读性。实验结果表明了该方法的有效性。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如《Neural Voice Puppetry: Audio-driven Facial Reenactment》和《Deep Video Portraits》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论