- 简介最近视频生成的研究取得了巨大的进展,使得可以从文本提示或图像中生成高质量的视频。向视频生成过程添加控制是未来的一个重要目标,最近的方法是在相机轨迹上调节视频生成模型,取得了进展。然而,从多个不同的相机轨迹生成同一场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模3D场景生成,以及其他应用。我们引入了协作视频扩散(CVD)作为实现这一愿景的重要一步。CVD框架包括一个新颖的跨视频同步模块,通过一个极线注意机制促进了从不同相机姿态渲染的同一视频的对应帧之间的一致性。在现有最先进的视频生成相机控制模块的基础上进行训练,CVD可以生成从不同相机轨迹渲染的多个视频,其一致性显著优于基线,这一点在广泛的实验中得到了证明。项目页面:https://collaborativevideodiffusion.github.io/。
- 图表
- 解决问题论文旨在解决多视角视频生成的问题,即如何从多个不同的摄像机角度生成同一场景的视频。这是一个新问题。
- 关键思路论文提出了协作视频扩散(CVD)框架,其中包括一个新颖的跨视频同步模块,利用极线关注机制促进了从不同摄像机姿态渲染的同一视频对应帧之间的一致性。CVD在现有的视频生成模型上进行训练,可以生成多个从不同摄像机轨迹渲染的视频,其一致性显著优于基线。
- 其它亮点论文的实验结果表明,CVD可以生成多个视角的视频,且这些视频之间的一致性比基线方法要好得多。CVD还可以生成高质量的视频,并且可以在多个数据集上进行训练。此外,论文还提供了一个基于Web的交互式演示,展示了CVD生成的多个视频之间的一致性。
- 在这个领域中,最近的相关研究包括:1. Learning to Synthesize 3D Indoor Scenes from RGB-D Data;2. Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes;3. Learning to Control the Fine-grained Details for Video-to-Video Synthesis。
沙发等你来抢
去评论
评论
沙发等你来抢