Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives

解决问题:本篇论文旨在通过不同iable rendering技术,将场景解析成由少量纹理基元组成的中级3D表示,以便于进行物理模拟和场景编辑。相比之前的方法,该论文的新意在于使用了不同iable rendering技术,使得基元参数的优化可以直接在图像上进行。

关键思路:本文的关键思路是使用基于不同iable rendering技术的纹理超椭球网格模型来表示场景,通过优化模型参数来实现场景的解析。该方法可以直接在图像上操作,而不需要3D输入数据。此外,论文还强调了每个基元的透明度建模的重要性,这对于优化和处理变化的基元数量至关重要。

其他亮点:本文的实验结果表明,基于纹理超椭球网格模型的基元表示可以忠实地重建图像,并准确地模拟可见的3D点,同时还能对未见物体区域进行模型补全。该方法在DTU的不同场景上进行了测试,并在BlendedMVS和Nerfstudio的实际捕获数据上展示了其鲁棒性。此外,论文还提供了代码和视频结果。

关于作者:本文的主要作者是Tom Monnier、Jake Austin、Angjoo Kanazawa、Alexei A. Efros和Mathieu Aubry。他们分别来自于加州大学伯克利分校、谷歌大脑、卡内基梅隆大学和巴黎高科学院。其中,Tom Monnier之前的代表作包括使用深度学习进行3D形状重建的论文;Alexei A. Efros则是计算机视觉领域的知名学者,曾在多个领域做出了重要贡献。

相关研究:与本文相关的其他研究包括:《Learning to infer graphics programs from hand-drawn images》(Kevin Ellis等,斯坦福大学)、《Differentiable Volumetric Rendering: Learning Implicit 3D Representations without 3D Supervision》(Benjamin Graham等,牛津大学)等。

论文摘要:本文提出了一种方法,通过对场景的一组校准图像进行处理,以3D基元的形式生成一个简单、紧凑且可操作的3D世界表示。虽然许多方法专注于恢复高保真的3D场景,但我们专注于将场景解析为由少量纹理基元组成的中级3D表示。这种表示易于解释、易于操作,适用于基于物理的模拟。此外,与现有的基元分解方法依赖于3D输入数据不同,我们的方法直接在图像上进行可微分渲染。具体而言,我们将基元建模为纹理超球面网格,并通过图像渲染损失从头开始优化它们的参数。我们强调了为每个基元建模透明度的重要性,这对于优化至关重要,也使得处理不同数量的基元成为可能。我们展示了生成的纹理基元忠实地重建了输入图像并准确地建模了可见的3D点,同时提供了未见物体区域的模态形状完成。我们在DTU的不同场景上将我们的方法与现有技术进行了比较,并在来自BlendedMVS和Nerfstudio的实际捕获数据上展示了其鲁棒性。我们还展示了如何使用我们的结果轻松编辑场景或执行物理模拟。代码和视频结果可在https://www.tmonnier.com/DBW上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除