CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

2024年05月21日
  • 简介
    我们将多模态Transformer扩展到包括3D摄像机运动作为视频生成任务的条件信号。生成式视频模型变得越来越强大,因此研究工作集中在控制这些模型输出的方法上。我们建议通过在生成的视频上加入虚拟3D摄像机控制,将生成视频方法作为条件信号,来控制生成的视频。结果表明,我们能够(1)成功地控制视频生成过程中的摄像机,从单个帧和摄像机信号开始,(2)我们使用传统的计算机视觉方法证明了生成的3D摄像机路径的准确性。
  • 图表
  • 解决问题
    论文旨在为生成视频模型添加虚拟3D相机控制,以控制生成视频的输出。这是一个当前研究的新问题。
  • 关键思路
    通过将三维相机运动编码作为条件信号,将多模态变换器扩展到视频生成任务中,以添加虚拟3D相机控制。通过该方法,可以从单个帧和相机信号开始控制相机,并使用传统计算机视觉方法证明了生成的3D相机路径的准确性。
  • 其它亮点
    实验设计了一个控制相机运动的模型,并使用了多个数据集进行评估。论文提出的方法可以成功地控制相机进行视频生成,并且生成的3D相机路径的准确性得到了证明。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:'Video Generation from Text'、'Generative Adversarial Networks for Video Generation and Compressed Sensing'、'Progressive Growing of GANs for Improved Quality, Stability, and Variation'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论