DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

2024年11月07日
  • 简介
    在本文中,我们介绍了**DimensionX**,一个框架,旨在仅通过单张图像和视频扩散生成逼真的3D和4D场景。我们的方法始于这样一个认识:3D场景的空间结构和4D场景的时间演变都可以通过视频帧序列有效表示。尽管最近的视频扩散模型在生成生动视觉效果方面取得了显著成功,但在生成过程中由于空间和时间可控性的限制,它们在直接恢复3D/4D场景方面仍面临挑战。为了解决这一问题,我们提出了ST-Director,该方法通过从维度变化的数据中学习维度感知的LoRAs,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确操纵空间结构和时间动态,使我们能够通过结合空间和时间维度,从连续帧中重建3D和4D表示。此外,为了弥合生成视频与现实世界场景之间的差距,我们引入了一种轨迹感知机制用于3D生成,以及一种保持身份的去噪策略用于4D生成。在各种真实和合成数据集上的大量实验表明,与先前的方法相比,DimensionX在可控视频生成、3D和4D场景生成方面取得了更优的结果。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文旨在解决从单张图像生成具有高空间和时间可控性的3D和4D场景的问题。现有的视频扩散模型虽然在生成生动的视觉效果方面表现出色,但在直接恢复3D/4D场景时存在空间和时间控制能力不足的问题。
  • 关键思路
    论文提出了一种名为ST-Director的方法,通过学习维度感知的LoRAs(Low-Rank Adaptations)来解耦视频扩散中的空间和时间因素。这种方法使得在生成过程中能够精确操控空间结构和时间动态,从而从连续帧中重建3D和4D表示。
  • 其它亮点
    1. 引入了轨迹感知机制和身份保持去噪策略,以提高生成视频与真实世界场景的一致性。 2. 在多个真实世界和合成数据集上进行了广泛实验,证明了DimensionX在可控视频生成及3D和4D场景生成方面的优越性能。 3. 论文提供了开源代码,便于其他研究人员复现和进一步研究。
  • 相关研究
    1. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" - 介绍了如何使用神经辐射场表示场景以实现视图合成。 2. "Video Diffusion Models" - 探讨了视频扩散模型的基本原理和应用。 3. "Temporal Video Diffusion with 3D Consistency" - 研究了如何在视频扩散中保持3D一致性。 4. "Controllable Video Generation with Spatial-Temporal Disentanglement" - 提出了解耦空间和时间因素以实现可控视频生成的方法。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问