- 简介生成具有多样化头部运动的艺术化说话头像对于实现自然的视频效果至关重要,但仍然具有挑战性。以往的方法要么采用回归方法来捕捉说话风格,导致风格粗糙,并且在所有训练数据中平均,要么采用通用网络来合成具有不同风格的视频,这会导致次优的性能。为了解决这些问题,我们提出了一种新的动态权重方法,即“任意风格说任何话”(SAAS),它通过具有学习风格码本的生成模型查询离散风格表示。具体来说,我们开发了一种多任务VQ-VAE,它包括三个密切相关的任务,以学习风格码本作为风格提取的先验知识。这种离散的先验知识,以及生成模型,增强了提取给定风格剪辑的说话风格的精度和鲁棒性。通过利用提取的风格,采用由规范分支和风格特定分支组成的残差架构来预测嘴巴形状,条件是任何驱动音频,同时将说话风格从源头转移到任何所需的风格。为了适应不同的说话风格,我们避免使用通用网络,而是通过探索精心设计的HyperStyle来产生风格分支的风格特定权重偏移量。此外,我们构建了一个姿势生成器和一个姿势码本来存储量化的姿势表示,使我们能够采样与音频和提取的风格对齐的多样化头部运动。实验表明,我们的方法在唇同步和艺术化表达方面都超过了最先进的方法。此外,我们将SAAS扩展到视频驱动的风格编辑领域,并取得了令人满意的性能。
- 图表
- 解决问题如何生成自然的视频,包含不同风格的头部动作,仍然是一个具有挑战性的问题。之前的方法要么采用回归方法来捕捉说话风格,导致风格粗糙且在所有训练数据中平均化;要么采用通用网络合成具有不同风格的视频,这会导致性能不佳。
- 关键思路提出了一种动态权重方法,即Say Anything with Any Style(SAAS),通过具有学习风格码本的生成模型查询离散风格表示。为了学习风格码本作为风格提取的先验知识,我们开发了一个多任务VQ-VAE,其中包括三个密切相关的任务。该方法通过提取风格,使用一个残差架构,包括规范分支和风格特定分支,来预测任何驱动音频的口形状,并将说话风格从源传输到任何所需的风格。为了适应不同的说话风格,我们避免使用通用网络,而是探索了一个精心设计的HyperStyle,用于产生风格分支的特定权重偏移量。此外,我们构建了一个姿势生成器和一个姿势码本,存储量化的姿势表示,允许我们采样与音频和提取的风格对齐的多样化头部动作。实验表明,我们的方法在唇同步和风格化表达方面优于现有方法。此外,我们将SAAS扩展到视频驱动的风格编辑领域,并取得了令人满意的性能。
- 其它亮点该论文的亮点包括:采用动态权重方法来查询离散风格表示;开发了一个多任务VQ-VAE来学习风格码本作为风格提取的先验知识;使用残差架构来预测口形状并将说话风格从源传输到所需的风格;使用HyperStyle来产生风格分支的特定权重偏移量;构建了一个姿势生成器和姿势码本来存储量化的姿势表示,允许采样与音频和提取的风格对齐的多样化头部动作。
- 最近的相关研究包括:LipGAN,Few-Shot Adversarial Learning of Realistic Neural Talking Head Models,Few-Shot Video-to-Video Synthesis,Headshot,Talking Heads,Deep Video Portraits,Avatar-Net: Multi-Scale Zero-Shot Style Transfer by Feature Decoration等。
沙发等你来抢
去评论
评论
沙发等你来抢