DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing

简介

我们考虑基于开放式语言指令编辑3D物体和场景的问题。解决这个问题的已有范例是使用2D图像生成器或编辑器来指导3D编辑过程。但是，这通常很慢，因为它需要更新计算成本高昂的3D表示，例如神经辐射场，并且通过使用 inherently not multi-view consistent 的2D模型提供矛盾的指导。因此，我们引入了Direct Gaussian Editor（DGE）方法，以两种方式解决这些问题。首先，我们修改一个给定的高质量图像编辑器（如InstructPix2Pix）以实现多视角一致性。我们通过利用不需要训练的方法，将场景的底层3D几何线索集成到其中。其次，给定一个物体的多视角一致性编辑图像序列，我们直接且高效地优化基于3D高斯喷洒的3D物体表示。因为它不需要逐步迭代地应用编辑，DGE比现有方法更高效，并具有其他优点，例如允许选择性地编辑场景的某些部分。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决基于自然语言指令编辑3D对象和场景的问题，通过引入Direct Gaussian Editor（DGE）方法来解决目前使用2D图像生成器或编辑器进行3D编辑过程中的计算效率低下和多视角不一致等问题。
关键思路

DGE方法的关键思路是将高质量的图像编辑器（如InstructPix2Pix）改造成多视角一致的编辑器，并结合3D场景的几何信息，然后通过直接优化3D对象表示（基于3D高斯喷洒）来实现编辑，从而避免了传统增量式迭代编辑的缺陷，提高了计算效率。
其它亮点

论文的亮点在于提出了一种高效的编辑3D对象和场景的方法，不需要增量式迭代编辑，具有更高的计算效率和选择性编辑场景的能力。论文还使用了多个数据集进行实验，并开源了代码。
相关研究

相关研究包括使用2D图像生成器或编辑器进行3D编辑的方法（如Pix3D、3D-GAN-VC等），以及基于3D场景的编辑方法（如NeRF、GRAF等）。

DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing

提问交流

提问交流