Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion

2024年06月09日
  • 简介
    随着视频预测技术的最新进展,可控制的视频生成引起了越来越多的关注。特别是生成高保真度视频,根据简单和灵活的条件生成视频,这是特别感兴趣的。为此,我们提出了一种可控制的视频生成模型,使用2D或3D边界框的像素级渲染作为条件。此外,我们还创建了一个边界框预测器,给定起始和结束帧的边界框,可以预测25帧剪辑中每帧的最多15个边界框。我们在3个著名的AV视频数据集上进行实验:KITTI、Virtual-KITTI 2和BDD100k。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种使用二维或三维边界框的像素级渲染作为条件的可控视频生成模型,并创建一个边界框预测器,以预测具有简单和灵活条件的高保真视频。
  • 关键思路
    论文的关键思路是使用像素级渲染的边界框作为条件,结合预测器生成高保真视频。相比当前领域的研究,该论文的创新之处在于提出了一种简单灵活的条件生成方法,并且在多个数据集上进行了实验验证。
  • 其它亮点
    该论文的亮点包括:使用像素级渲染的边界框作为条件生成高保真视频;创建了一个边界框预测器,能够预测具有简单和灵活条件的视频;在三个知名数据集上进行了实验验证,包括KITTI、Virtual-KITTI 2和BDD100k。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如《Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks》和《Video Generation from Text》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问