Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style

2024年03月11日
  • 简介
    虽然自动制作音频驱动的说话头部动画近来引起了越来越多的关注,但以往的努力主要集中在实现与音频的唇部同步,忽略了生成表现力视频所必需的两个关键元素:情感风格和艺术风格。在本文中,我们提出了一种创新的音频驱动说话人生成方法,称为Style2Talker。它包括两个风格化阶段,即Style-E和Style-A,将文本控制的情感风格和图片控制的艺术风格集成到最终输出中。为了准备与视频相对应的稀缺情感文本描述,我们提出了一种无需劳动力的范例,利用大规模预训练模型自动注释现有音频视觉数据集的情感文本标签。将合成的情感文本纳入考虑,Style-E阶段利用大规模CLIP模型提取情感表示,将其与音频结合起来,作为设计用于生成3DMM模型的情感运动系数的高效潜在扩散模型的条件。接下来进入Style-A阶段,我们开发了一个系数驱动的运动生成器和一个嵌入到著名的StyleGAN中的艺术特定风格路径。这使我们能够使用生成的情感运动系数和艺术风格源图片合成高分辨率的艺术风格化的说话头部视频。此外,为了更好地保留图像细节并避免伪影,我们为StyleGAN提供了从身份图像提取的多尺度内容特征,并通过设计的内容编码器和精化网络分别优化其中间特征映射。广泛的实验结果表明,我们的方法在音频唇部同步和情感风格和艺术风格的表现方面优于现有的最先进方法。
  • 图表
  • 解决问题
    论文提出了一种名为Style2Talker的创新音频驱动说话人生成方法,旨在集成情感风格和艺术风格,并解决了之前研究中忽略的情感和艺术风格问题。
  • 关键思路
    该方法包括两个风格化阶段,即Style-E和Style-A。Style-E阶段使用预训练模型自动注释情感文本标签,并使用CLIP模型提取情感表示,将其与音频结合,作为3DMM模型情感运动系数的条件。Style-A阶段使用系数驱动的运动生成器和嵌入在StyleGAN中的艺术特定风格路径,使用生成的情感运动系数和艺术风格源图片合成高分辨率的艺术风格化说话人视频。
  • 其它亮点
    论文提出了一种无需劳动的范例,使用预训练模型自动注释情感文本标签。实验结果表明,该方法在音频唇形同步和情感和艺术风格方面的表现优于现有的最先进方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”和“Talking Head Anime from a Single Image with Lightweight Non-Local Attention Network”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论