WonderWorld: Interactive 3D Scene Generation from a Single Image

简介

我们提出了WonderWorld，这是一个新颖的交互式3D场景外推框架，使用户能够基于单个输入图像和用户指定的文本来探索和塑造虚拟环境。虽然场景生成的视觉质量已经有了显著的提高，但现有的方法都是离线运行的，需要花费数十分钟到数小时来生成场景。通过利用Fast Gaussian Surfels和一种基于引导扩散的深度估计方法，WonderWorld在显著减少计算时间的同时生成几何上一致的外推。我们的框架在单个A6000 GPU上可以在不到10秒钟内生成连接和多样化的3D场景，实现实时用户交互和探索。我们展示了WonderWorld在虚拟现实、游戏和创意设计等应用中的潜力，用户可以从单个图像中快速生成和导航沉浸式的、潜在无限的虚拟世界。我们的方法代表了交互式3D场景生成的重大进步，为用户驱动的内容创作和虚拟环境探索开辟了新的可能性。我们将发布完整的代码和软件，以实现可重复性。项目网站：https://WonderWorld-2024.github.io/
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

WonderWorld论文试图解决的问题是如何基于单张输入图像和用户指定的文本，实现交互式的三维场景外推，以便用户能够探索和塑造虚拟环境。现有方法的计算时间长，需要几十分钟到几小时才能生成场景，WonderWorld试图解决这个问题。
关键思路

WonderWorld的关键思路是利用快速高斯Surfels和基于引导扩散的深度估计方法，实现几何一致的外推，并显著减少计算时间。这种方法可以在不到10秒的时间内在单个A6000 GPU上生成连接和多样化的三维场景，实现实时用户交互和探索。
其它亮点

WonderWorld的亮点在于可以在不到10秒的时间内实现实时用户交互和探索，为虚拟现实、游戏和创意设计等领域提供了新的可能性。论文还提供了完整的代码和软件以供复现。实验使用了哪些数据集没有具体说明，但是强调了其生成的场景可以无限制地进行探索和塑造。
相关研究

最近在这个领域中，还有一些相关的研究，比如NeRF、PIFu、GRAF等。

WonderWorld: Interactive 3D Scene Generation from a Single Image

提问交流

提问交流