4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

2024年06月11日
  • 简介
    现有的动态场景生成方法大多依赖于从预训练的3D生成模型中提取知识,这些模型通常在合成对象数据集上进行微调。因此,生成的场景通常以对象为中心,缺乏逼真度。为了解决这些限制,我们介绍了一种新的流程,用于逼真的文本到4D场景生成,摒弃了对多视角生成模型的依赖,而是充分利用在多样的真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成参考视频。然后,我们使用从参考视频精心生成的冻结时间视频来学习视频的规范3D表示。为了处理冻结时间视频中的不一致性,我们共同学习每帧变形来建模这些缺陷。然后,我们基于规范表示学习时间变形,以捕捉参考视频中的动态交互。该流程促进了具有增强逼真度和结构完整性的动态场景的生成,可从多个角度查看,从而在4D场景生成方面树立了新的标准。
  • 图表
  • 解决问题
    论文旨在解决现有动态场景生成方法依赖于预训练的3D生成模型的问题,导致生成的场景常常缺乏真实感和照片般的逼真度。
  • 关键思路
    通过使用在多样的真实世界数据集上训练的视频生成模型,提出了一种新的针对文本到4D场景生成的流程,摒弃了对多视角生成模型的依赖,充分利用了视频生成模型。该流程通过生成参考视频开始,然后使用从参考视频中精心生成的冻结时间视频学习视频的规范3D表示。为了处理冻结时间视频中的不一致性,我们联合学习了每帧变形来模拟这些缺陷。接着,我们基于规范表示学习时间变形以捕捉参考视频中的动态交互。该流程有助于生成具有增强的照片般逼真度和结构完整性的动态场景,可以从多个角度查看,从而在4D场景生成方面树立了新的标准。
  • 其它亮点
    该论文的亮点包括:使用真实世界数据集上训练的视频生成模型,生成的场景具有更高的逼真度和结构完整性;使用冻结时间视频和规范3D表示来学习参考视频的动态场景;联合学习每帧变形来处理冻结时间视频中的不一致性;实验设计合理,使用了多个数据集进行验证。
  • 相关研究
    最近的相关研究包括:《Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes》、《DeepVoxels: Learning Persistent 3D Feature Embeddings》、《Learning to Generate 3D Shapes with Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论