CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

2024年05月21日
  • 简介
    我们将多模态Transformer扩展到包括3D摄像机运动作为视频生成任务的条件信号。生成式视频模型变得越来越强大,因此研究工作集中在控制这些模型输出的方法上。我们建议通过在生成的视频上加入虚拟3D摄像机控制,将生成视频方法作为条件信号,来控制生成的视频。结果表明,我们能够(1)成功地控制视频生成过程中的摄像机,从单个帧和摄像机信号开始,(2)我们使用传统的计算机视觉方法证明了生成的3D摄像机路径的准确性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在为生成视频模型添加虚拟3D相机控制,以控制生成视频的输出。这是一个当前研究的新问题。
  • 关键思路
    通过将三维相机运动编码作为条件信号,将多模态变换器扩展到视频生成任务中,以添加虚拟3D相机控制。通过该方法,可以从单个帧和相机信号开始控制相机,并使用传统计算机视觉方法证明了生成的3D相机路径的准确性。
  • 其它亮点
    实验设计了一个控制相机运动的模型,并使用了多个数据集进行评估。论文提出的方法可以成功地控制相机进行视频生成,并且生成的3D相机路径的准确性得到了证明。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:'Video Generation from Text'、'Generative Adversarial Networks for Video Generation and Compressed Sensing'、'Progressive Growing of GANs for Improved Quality, Stability, and Variation'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问