- 简介我们将多模态Transformer扩展到包括3D摄像机运动作为视频生成任务的条件信号。生成式视频模型变得越来越强大,因此研究工作集中在控制这些模型输出的方法上。我们建议通过在生成的视频上加入虚拟3D摄像机控制,将生成视频方法作为条件信号,来控制生成的视频。结果表明,我们能够(1)成功地控制视频生成过程中的摄像机,从单个帧和摄像机信号开始,(2)我们使用传统的计算机视觉方法证明了生成的3D摄像机路径的准确性。
- 图表
- 解决问题论文旨在为生成视频模型添加虚拟3D相机控制,以控制生成视频的输出。这是一个当前研究的新问题。
- 关键思路通过将三维相机运动编码作为条件信号,将多模态变换器扩展到视频生成任务中,以添加虚拟3D相机控制。通过该方法,可以从单个帧和相机信号开始控制相机,并使用传统计算机视觉方法证明了生成的3D相机路径的准确性。
- 其它亮点实验设计了一个控制相机运动的模型,并使用了多个数据集进行评估。论文提出的方法可以成功地控制相机进行视频生成,并且生成的3D相机路径的准确性得到了证明。论文还提供了开源代码。
- 最近的相关研究包括:'Video Generation from Text'、'Generative Adversarial Networks for Video Generation and Compressed Sensing'、'Progressive Growing of GANs for Improved Quality, Stability, and Variation'等。
沙发等你来抢
去评论
评论
沙发等你来抢