ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

2024年08月06日
  • 简介
    本文提出了一个名为ReSyncer的统一且有效的框架,用于同步通用音频-视觉面部信息,这是创建虚拟主持人或表演者等各种应用的基础。最近的研究探索了不同技术下的高保真度口型同步,但它们的任务导向模型要么需要长期视频进行特定剪辑的训练,要么会保留可见的伪影。本文的关键设计是重新审视和重构基于样式的生成器,以便有效地采用由基于样式注入的Transformer预测的3D面部动态。通过简单地重新配置噪声和样式空间内的信息插入机制,我们的框架将运动和外观融合到统一的训练中。广泛的实验表明,ReSyncer不仅可以根据音频产生高保真度的口型同步视频,还支持多种适用于创建虚拟主持人和表演者的吸引人的属性,包括快速个性化微调、视频驱动的口型同步、讲话风格的转移,甚至是人脸交换。相关资源可在https://guanjz20.github.io/projects/ReSyncer找到。
  • 图表
  • 解决问题
    论文旨在提出一种新的框架ReSyncer,通过融合运动和外观信息,实现高保真的唇同步视频生成,同时支持多种应用场景。
  • 关键思路
    ReSyncer框架采用了基于Transformer的风格注入机制,通过重新配置噪声和风格空间中的信息插入机制,有效地采用了预测的3D面部动态信息,从而实现了唇同步视频的生成。
  • 其它亮点
    论文提出的ReSyncer框架不仅可以生成高保真唇同步视频,还支持快速个性化微调、视频驱动唇同步、说话风格转移、面部交换等多种应用场景。实验采用了多个数据集进行验证,并公开了相关资源。
  • 相关研究
    最近相关研究包括但不限于:《Towards High-Fidelity Face-to-Face Translation》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论