GAIA: Zero-shot Talking Avatar Generation

2023年11月26日
  • 简介
    零样本说话人物生成的目的是从语音和单个肖像图像合成自然的说话视频。以前的方法依赖于特定领域的启发式方法,如基于变形的运动表示和3D可塑模型,这限制了生成的人物的自然性和多样性。在这项工作中,我们介绍了GAIA(Avatar生成AI),它消除了说话人物生成中的领域先验知识。鉴于语音只驱动人物的运动,而人物的外观和背景通常在整个视频中保持不变的观察结果,我们将方法分为两个阶段:1)将每个帧分解为运动和外观表示;2)根据语音和参考肖像图像生成运动序列。我们收集了大规模高质量的说话人物数据集,并在不同规模上(高达2B个参数)对其进行了训练。实验结果验证了GAIA的优越性、可扩展性和灵活性,因为1)所得到的模型在自然性、多样性、唇同步质量和视觉质量方面均超过了以前的基线模型;2)该框架是可扩展的,因为更大的模型会产生更好的结果;3)它是通用的,可以实现不同的应用,如可控说话人物生成和文本指导的人物生成。
  • 图表
  • 解决问题
    本论文旨在解决零样本生成自然对话视频的问题,通过对每帧进行运动和外观的分离,以及在语音和参考肖像图像的条件下生成运动序列来消除领域先验知识限制。
  • 关键思路
    GAIA框架消除了以往生成对话人物的领域先验知识限制,将其分为两个阶段:分离每帧的运动和外观表示以及在语音和参考肖像图像的条件下生成运动序列。
  • 其它亮点
    论文在大规模高质量的对话人物数据集上进行了实验,验证了GAIA框架的优越性、可扩展性和灵活性。实验结果表明,与以往的基准模型相比,GAIA的模型在自然度、多样性、唇形同步质量和视觉质量等方面表现更好。此外,GAIA框架的可扩展性表现良好,使用更大的模型可以获得更好的结果,同时还可以实现不同的应用,如可控制的对话人物生成和文本指导的对话人物生成。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,如《Few-shot Adversarial Learning of Realistic Neural Talking Head Models》和《Few-Shot Video-to-Video Synthesis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论