FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features

简介

面部重现的任务是将驾驶视频中的头部运动和面部表情转移到源图像的外观上，源图像可能是不同的人（跨重现）。大多数现有方法都是基于CNN的，会从源图像估计光流到当前驾驶帧，然后进行修补和改进以生成输出动画。我们提出了一种基于变换器的编码器，用于计算源图像的一组潜在表示。然后，我们使用基于变换器的解码器预测查询像素的输出颜色，该解码器受到从驾驶帧提取的关键点和面部表情向量的调节。源人的潜在表示以自监督的方式进行学习，其外观、头部姿态和面部表情被分解，因此非常适合跨重现。与大多数相关工作不同，我们的方法自然地扩展到多个源图像，因此可以适应个人特定的面部动态。我们还提出了必要的数据增强和正则化方案，以防止过拟合并支持学习表示的泛化能力。我们在随机用户研究中评估了我们的方法。结果表明，在运动转移质量和时间一致性方面，我们的表现优于现有技术水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决面部再现的问题，即将一个驱动视频中的头部动作和面部表情转移到源图像的外观上。该方法通过使用基于Transformer的编码器和解码器来学习源人物的潜在表示，以实现跨再现。
关键思路

论文的关键思路是使用基于Transformer的编码器和解码器来学习源人物的潜在表示，以实现跨再现。这种方法可以自然地扩展到多个源图像，并且支持个人特定的面部动态。
其它亮点

该论文提出了数据增强和正则化方案，以防止过拟合并支持学习表示的泛化性。通过一项随机用户研究，证明了该方法在运动转移质量和时间一致性方面的优越性能。
相关研究

最近的相关研究包括“Deep Video Portraits”和“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”。

FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features

提问交流

提问交流