ID-Animator: Zero-Shot Identity-Preserving Human Video Generation

2024年04月23日
  • 简介
    生成具有指定身份的高保真度人类视频引起了内容生成社区的重视。然而,现有技术在训练效率和身份保留之间难以平衡,要么需要繁琐的逐案微调,要么在视频生成过程中通常会遗漏身份细节。在本研究中,我们提出了ID-Animator,一种零样本人类视频生成方法,可以在不需要进一步训练的情况下执行个性化视频生成,仅给定单个参考面部图像。ID-Animator继承了现有的基于扩散的视频生成骨干结构,并使用面部适配器来编码从可学习的面部潜在查询中提取的与身份相关的嵌入。为了促进视频生成中身份信息的提取,我们引入了一个面向ID的数据集构建流程,该流程从构建的面部图像池中结合解耦的人类属性和动作字幕技术。基于这个流程,进一步设计了一种随机面部参考训练方法,以精确捕获参考图像中与身份相关的嵌入,从而提高了我们的模型用于ID特定视频生成的保真度和泛化能力。广泛的实验表明,ID-Animator在生成个性化人类视频方面优于先前的模型。此外,我们的方法与流行的预训练T2V模型(如animatediff)和各种社区骨干模型高度兼容,在需要高度保留身份的视频生成的实际应用中具有很高的可扩展性。我们的代码和检查点将在https://github.com/ID-Animator/ID-Animator发布。
  • 作者讲解·2
  • 图表
  • 解决问题
    本论文旨在解决生成高保真度的个性化人类视频的问题,而现有技术往往难以在训练效率和身份保留之间取得平衡。
  • 关键思路
    ID-Animator是一种零样本的人类视频生成方法,可以在不进行进一步训练的情况下执行个性化视频生成,只需提供单个参考面部图像。ID-Animator继承了现有的基于扩散的视频生成骨干结构,并使用面部适配器从可学习的面部潜在查询中编码与身份相关的嵌入。
  • 其它亮点
    该论文的亮点包括ID-Animator的ID-oriented数据集构建流程和随机脸部参考训练方法,可以精确地从参考图像中捕获与身份相关的嵌入,从而提高了模型的保真度和泛化能力。实验表明,ID-Animator在生成个性化人类视频方面优于以前的模型。此外,该方法与流行的预训练T2V模型(如animatediff)和各种社区骨干模型高度兼容,显示出在需要高度保留身份的视频生成的实际应用中的高扩展性。作者已在https://github.com/ID-Animator/ID-Animator上发布了代码和检查点。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:Generative Adversarial Networks (GANs)、Variational Autoencoders (VAEs)、PixelRNN等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问