Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts

简介

最近针对基于视觉-语言预训练模型的图像内容编辑的研究已被成功地扩展到文本驱动的三维场景编辑。然而，现有的三维场景编辑方案仍存在某些缺陷，阻碍了它们进一步的交互式设计。这些方案通常遵循固定的输入模式，限制了用户在文本输入方面的灵活性。此外，它们的编辑能力受到单个或少量二维视觉模型的限制，并需要复杂的流程设计来将这些模型集成到三维重建过程中。为了解决上述问题，我们提出了一种基于对话的三维场景编辑方法，称为CE3D，它以一个大型语言模型为中心，允许用户进行任意文本输入并解释他们的意图，随后促进相应视觉专家模型的自主调用。此外，我们设计了一种利用Hash-Atlas表示三维场景视图的方案，将三维场景的编辑转移到二维图集图像上。这种设计实现了二维编辑和三维重建过程之间的完全解耦，使CE3D能够灵活地集成各种现有的二维或三维视觉模型，而不需要复杂的融合设计。实验结果表明，CE3D有效地集成了多个视觉模型，实现了多样化的编辑视觉效果，具有强大的场景理解和多轮对话能力。代码可在此链接获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种基于对话的3D场景编辑方法，旨在解决现有方案中存在的输入模式固定、编辑能力受限的问题。
关键思路

CE3D方法利用大型语言模型解释用户输入的意图，并自主调用对应的视觉模型进行编辑，同时采用Hash-Atlas将3D场景编辑转化为2D图像编辑，实现了2D和3D过程的完全解耦。
其它亮点

CE3D方法具有多样的编辑视觉效果、强大的场景理解和多轮对话能力，能够灵活地集成各种现有的2D或3D视觉模型。论文提供了代码开源。
相关研究

最近的相关研究包括基于视觉-语言预训练模型的图像内容操作、文本驱动的3D场景编辑等。

Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts

提问交流

提问交流