UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation

2024年06月03日
  • 简介
    最近,基于扩散的人体图像动画技术已经展现出了令人印象深刻的成功,可以合成与给定参考身份和所需动作姿势序列相符的视频。尽管如此,仍存在两个限制:一是需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;二是生成的视频通常时间较短(例如,24帧),限制了实际应用。为了解决这些缺点,我们提出了UniAnimate框架,以实现高效和长期的人体视频生成。首先,为了减少优化难度并确保时间连贯性,我们通过整合统一的视频扩散模型,将参考图像以及姿势指导和噪声视频映射到一个共同的特征空间中。其次,我们提出了一个统一的噪声输入,支持随机噪声输入以及第一帧条件输入,增强了生成长期视频的能力。最后,为了更有效地处理长序列,我们探索了一种基于状态空间模型的替代时间建模架构,以替换原始的计算密集型时间变换器。广泛的实验结果表明,UniAnimate在定量和定性评估中均实现了优越的合成结果,超过了现有最先进的对手。值得注意的是,UniAnimate甚至可以通过迭代地采用第一帧调节策略来生成高度一致的一分钟视频。代码和模型将公开发布。项目页面:https://unianimate.github.io/。
  • 图表
  • 解决问题
    本论文旨在解决基于扩散的人类图像动画技术中存在的两个问题:需要额外的参考模型来对齐身份图像,生成的视频通常时间较短。是否为新问题尚不确定。
  • 关键思路
    该论文提出了UniAnimate框架,通过将参考图像与姿势指导和噪声视频映射到统一的特征空间中,以减少优化难度并确保时间上的一致性。同时,提出了支持随机噪声输入和第一帧条件输入的统一噪声输入,以增强生成长期视频的能力。最后,为了进一步有效地处理长序列,探索了基于状态空间模型的替代时间建模架构。
  • 其它亮点
    该论文在定量和定性评估中均取得了优秀的合成结果,甚至可以通过迭代使用第一帧条件策略生成高度一致的一分钟视频。实验设计详细,使用了多个数据集,并且代码和模型将公开。
  • 相关研究
    近期的相关研究包括:《Few-Shot Video-to-Video Synthesis》、《Deep Video Portraits》、《Everybody Dance Now》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论