新加坡国立颜水成LV实验室助理教授冯佳时团队的工作。一作Xiaoguang Tu已从NUS博士毕业,加入了中国民用航空飞行学院。
人脸视频的生成通常会利用人脸图像的稀疏特征点(landmarks)结合生成对抗网络(GAN)。不过,这种由稀疏人脸特征点生成的人脸图像视频通常会遇到很多问题。比如图像质量损失、图像失真、身份改变,以及表情不匹配等问题。为了解决这些问题,本文作者使用重建出的三维人脸动态信息来指导人脸视频的生成。

论文地址:https://ieeexplore.ieee.org/abstract/document/9439899
arXiv版本:https://arxiv.org/pdf/2105.14678.pdf
三维人脸动态中,人的面部表情和动作更加细腻,可以作为有力的先验知识指导生成高度逼真的人脸视频。
文中,作者设计了一套三维动态预测和人脸视频生成模型(FaceAnime)来预测单张人脸图像的3D动态序列。
通过稀疏纹理映射算法进一步渲染3D动态序列的皮肤细节,最后利用条件生成对抗网络引导人脸视频的生成。
实验结果显示,FaceAnime能从单张静止的人脸图像生成高保真度、身份不变性的人脸视频,比其它方法效果更好。
背景和贡献
当前的人脸视频生成方法普遍采用人脸的稀疏特征点(landmarks)来引导图片或视频的生成。
然而作者认为使用稀疏的二维特征点引导人脸图像/视频生成有明显的不足:
稀疏人脸特征点不能很好地表示人脸图像的几何形状,容易导致人脸整体形状和面部结构细节的缺失,进而导致合成图像的失真和质量损失;
稀疏的二维特征点不携带源人脸图像的任何内容信息,这可能会导致生成的图像过拟合于只包含训练集的人脸图像中;
在视频生成过程中应保留人脸身份信息,但稀疏的2D特征点没有身份信息,容易导致合成结果的身份变化。
因此,文章针对这些方面做出了以下贡献:
不同于广泛使用2D稀疏人脸landmarks进行图像/视频的引导生成,文章主要探索包含人脸丰富信息的3D动态信息的人脸视频生成任务;
设计了一个三维动态预测网络(3D Dynamic Prediction,3DDP)来预测时空连续的3D动态序列;
提出了一个稀疏纹理映射算法来渲染预测的3D动态序列,并将其作为先验信息引导人脸图像/视频的生成;
文章使用随机和可控的两种方式进行视频的生成任务,验证提出方法的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢