Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

2024年05月26日
  • 简介
    大规模多模态数据集的可用性和扩散模型的进步显著加速了4D内容生成的进展。大多数先前的方法依赖于多个图像或视频扩散模型,利用分数蒸馏采样进行优化或生成伪新视图进行直接监督。然而,这些方法受到缓慢的优化速度和多视角不一致性问题的阻碍。在3D感知扩散模型和传统单目视频扩散模型中,已经分别广泛探索了4D几何的空间和时间一致性。在此基础上,我们提出了一种策略,将视频扩散模型中的时间一致性迁移到4D生成所需的空间-时间一致性。具体而言,我们提出了一种新颖的框架\textbf{Diffusion4D},用于高效和可扩展的4D内容生成。利用一个精心策划的动态3D数据集,我们开发了一个4D感知的视频扩散模型,能够合成动态3D资产的轨道视图。为了控制这些资产的动态强度,我们引入了一个3D到4D运动幅度度量作为指导。此外,我们提出了一种新颖的运动幅度重建损失和3D感知的无分类器指导,以改进运动动力学的学习和生成。在获得4D资产的轨道视图后,我们以粗到细的方式使用高斯喷洒进行明确的4D构建。合成的多视角一致的4D图像集使我们能够在几分钟内迅速生成高保真度和多样化的4D资产。广泛的实验表明,我们的方法在生成效率和跨各种提示模态的4D几何一致性方面超过了先前的最先进技术。
  • 图表
  • 解决问题
    本论文旨在提出一种新的方法,即Diffusion4D,用于高效和可扩展的4D内容生成。该方法试图解决现有方法在优化速度和多视角不一致性方面的问题。
  • 关键思路
    Diffusion4D框架结合了动态3D数据集和视频扩散模型,能够生成多视角一致的4D图像集。为了控制动态资产的动态强度,论文提出了一个3D到4D运动幅度度量指标,并引入了运动幅度重建损失和3D感知无分类器指导来优化学习和生成运动动态。
  • 其它亮点
    论文使用了动态3D数据集,并提出了一种新的方法Diffusion4D用于高效和可扩展的4D内容生成,能够生成多视角一致的4D图像集。论文还提出了一个3D到4D运动幅度度量指标,并引入了运动幅度重建损失和3D感知无分类器指导来优化学习和生成运动动态。实验结果表明,该方法在生成效率和4D几何一致性方面优于先前的技术。
  • 相关研究
    最近的相关研究包括:Score-Based Generative Models、3D-Aware Generative Models、Monocular Video Diffusion Models等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论