CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

简介

我们将多模态Transformer扩展到包括3D摄像机运动作为视频生成任务的条件信号。生成式视频模型变得越来越强大，因此研究工作集中在控制这些模型输出的方法上。我们建议通过在生成的视频上加入虚拟3D摄像机控制，将生成视频方法作为条件信号，来控制生成的视频。结果表明，我们能够（1）成功地控制视频生成过程中的摄像机，从单个帧和摄像机信号开始，（2）我们使用传统的计算机视觉方法证明了生成的3D摄像机路径的准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在为生成视频模型添加虚拟3D相机控制，以控制生成视频的输出。这是一个当前研究的新问题。
关键思路

通过将三维相机运动编码作为条件信号，将多模态变换器扩展到视频生成任务中，以添加虚拟3D相机控制。通过该方法，可以从单个帧和相机信号开始控制相机，并使用传统计算机视觉方法证明了生成的3D相机路径的准确性。
其它亮点

实验设计了一个控制相机运动的模型，并使用了多个数据集进行评估。论文提出的方法可以成功地控制相机进行视频生成，并且生成的3D相机路径的准确性得到了证明。论文还提供了开源代码。
相关研究

最近的相关研究包括：'Video Generation from Text'、'Generative Adversarial Networks for Video Generation and Compressed Sensing'、'Progressive Growing of GANs for Improved Quality, Stability, and Variation'等。

CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

提问交流

提问交流