DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

向作者提问

NEW

简介

在本文中，我们介绍了**DimensionX**，一个框架，旨在仅通过单张图像和视频扩散生成逼真的3D和4D场景。我们的方法始于这样一个认识：3D场景的空间结构和4D场景的时间演变都可以通过视频帧序列有效表示。尽管最近的视频扩散模型在生成生动视觉效果方面取得了显著成功，但在生成过程中由于空间和时间可控性的限制，它们在直接恢复3D/4D场景方面仍面临挑战。为了解决这一问题，我们提出了ST-Director，该方法通过从维度变化的数据中学习维度感知的LoRAs，将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确操纵空间结构和时间动态，使我们能够通过结合空间和时间维度，从连续帧中重建3D和4D表示。此外，为了弥合生成视频与现实世界场景之间的差距，我们引入了一种轨迹感知机制用于3D生成，以及一种保持身份的去噪策略用于4D生成。在各种真实和合成数据集上的大量实验表明，与先前的方法相比，DimensionX在可控视频生成、3D和4D场景生成方面取得了更优的结果。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

该论文旨在解决从单张图像生成具有高空间和时间可控性的3D和4D场景的问题。现有的视频扩散模型虽然在生成生动的视觉效果方面表现出色，但在直接恢复3D/4D场景时存在空间和时间控制能力不足的问题。
关键思路

论文提出了一种名为ST-Director的方法，通过学习维度感知的LoRAs（Low-Rank Adaptations）来解耦视频扩散中的空间和时间因素。这种方法使得在生成过程中能够精确操控空间结构和时间动态，从而从连续帧中重建3D和4D表示。
其它亮点

1. 引入了轨迹感知机制和身份保持去噪策略，以提高生成视频与真实世界场景的一致性。 2. 在多个真实世界和合成数据集上进行了广泛实验，证明了DimensionX在可控视频生成及3D和4D场景生成方面的优越性能。 3. 论文提供了开源代码，便于其他研究人员复现和进一步研究。
相关研究

1. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" - 介绍了如何使用神经辐射场表示场景以实现视图合成。 2. "Video Diffusion Models" - 探讨了视频扩散模型的基本原理和应用。 3. "Temporal Video Diffusion with 3D Consistency" - 研究了如何在视频扩散中保持3D一致性。 4. "Controllable Video Generation with Spatial-Temporal Disentanglement" - 提出了解耦空间和时间因素以实现可控视频生成的方法。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问