TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

2024年07月12日
  • 简介
    Pose-driven human-image animation diffusion models已经展示出在逼真人类视频合成方面的卓越能力。尽管先前方法取得了令人鼓舞的结果,但在实现时间上的一致性和确保与现成的姿态检测器的稳健性方面仍然存在挑战。本文提出了TCAN,一种姿态驱动的人类图像动画方法,它对错误的姿态具有鲁棒性,并且在时间上保持一致。与以前的方法不同,我们利用预先训练的ControlNet而不进行微调,以利用其从众多姿态-图像-标题对中获得的广泛预先获取的知识。为了保持ControlNet不变,我们将LoRA适应于UNet层,使网络能够对齐姿态和外观特征之间的潜在空间。此外,通过向ControlNet引入额外的时间层,我们增强了对姿态检测器的异常值的鲁棒性。通过对时间轴上的注意力图的分析,我们还设计了一种利用姿态信息的新颖温度图,允许更静态的背景。广泛的实验表明,所提出的方法可以在包含各种姿势的视频合成任务中取得有希望的结果,例如卡通形象。项目主页:https://eccv2024tcan.github.io/
  • 图表
  • 解决问题
    本论文旨在解决姿势检测误差和时间一致性问题,提出了一种名为TCAN的姿势驱动人像动画方法。
  • 关键思路
    该方法利用预训练的ControlNet,通过适应LoRA到UNet层来对齐姿势和外观特征之间的潜在空间,同时引入额外的时间层来增强对姿势检测器异常值的鲁棒性。
  • 其它亮点
    论文通过分析时间轴上的注意力图和温度图,提出了一种新颖的姿势信息温度图,可以更好地处理静态背景。实验结果表明,该方法在各种姿势合成任务中都取得了有前途的结果。
  • 相关研究
    近期的相关研究包括:《Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问