- 简介本文介绍了一种使用视频扩散模型和运动先验的开放域可控图像动画方法,生成逼真的动画视频是计算机视觉中一个重要的研究领域。基于物理模拟和运动预测的方法已经取得了显著进展,但它们通常仅限于特定的物体纹理和运动轨迹,无法展示高度复杂的环境和物理动态。我们的方法通过从视频中提取运动场信息并学习运动轨迹和强度,实现对可移动区域中运动方向和速度的精确控制。与目前预训练的视频生成模型通常仅能生成不到30帧的短视频相比,我们提出了一种基于噪声重新调度的高效长时视频生成方法,特别适用于图像动画任务,能够创建超过100帧的视频,并保持内容、场景和动作协调一致。具体来说,我们将去噪过程分解为两个不同的阶段:场景轮廓的塑造和运动细节的精细化。然后,我们重新调度噪声以控制生成的帧序列,保持远距离噪声相关性。我们进行了广泛的实验,涵盖了商业工具和学术方法,证明了我们方法的优越性。我们的项目页面:\url{https://wangqiang9.github.io/Controllable.github.io/}。
- 图表
- 解决问题本论文旨在解决静态图像生成动态视频的问题,尤其是在复杂环境和物理动态方面的限制。
- 关键思路论文提出了一种基于视频扩散模型的开放域可控图像动画方法,通过从视频中提取运动场信息和学习运动轨迹和强度来实现对可移动区域中运动方向和速度的精确控制。同时,论文提出了一种基于噪声重新调度的高效长时间视频生成方法,用于图像动画任务,能够生成100帧以上的视频,同时保持内容、景色和动作协调的一致性。
- 其它亮点论文的亮点包括:1.提出了一种能够生成长时间视频的图像动画方法;2.通过噪声重新调度来控制生成的帧序列,保持长距离噪声相关性;3.在10个基线实验中,论文所提出的方法表现出了明显的优越性。此外,论文还提供了开源代码和项目页面。
- 当前在该领域的相关研究包括基于物理模拟和运动预测的方法,但它们通常局限于特定的物体纹理和运动轨迹,无法展示高度复杂的环境和物理动态。
沙发等你来抢
去评论
评论
沙发等你来抢