CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

简介

最近，视频扩散模型已成为高质量视频内容创建的表达性生成工具，普通用户也可以轻松使用。然而，这些模型通常不能精确控制视频生成的相机姿态，从而限制了电影语言和用户控制的表达。为了解决这个问题，我们引入了CamCo，它允许对图像到视频生成进行细粒度的相机姿态控制。我们使用Pl\"ucker坐标为预训练的图像到视频生成器提供准确的相机姿态输入。为了增强视频的三维一致性，我们在每个注意力块中集成了一个极线注意力模块，强制执行特征映射的极线约束。此外，我们使用通过结构运动算法估计的相机姿态对CamCo进行微调，以更好地合成物体运动。我们的实验表明，与以前的模型相比，CamCo显着提高了三维一致性和相机控制能力，同时有效地生成了可信的物体运动。项目页面：https://ir1d.github.io/CamCo/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

CamCo试图解决视频生成模型无法精确控制摄像机姿态的问题，限制了电影语言和用户控制表达的问题。
关键思路

CamCo使用Plücker坐标为预训练的图像到视频生成器提供精确参数化的摄像机姿态输入，并在每个注意力块中集成一个极线注意力模块，以强制执行特征图的极线约束，从而增强生成视频的3D一致性。
其它亮点

CamCo在实际视频上进行了微调，使用结构从运动算法估计的摄像机姿态来更好地合成物体运动。实验结果表明，相对于以前的模型，CamCo显著提高了3D一致性和摄像机控制能力，同时有效地生成了可信的物体运动。
相关研究

最近的相关研究包括：《Generative Adversarial Networks for Video Generation: A Review》、《Video Generation: Past, Present and Future》、《Progressive Growing of GANs for Improved Quality, Stability, and Variation》等。

CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

提问交流

提问交流