- 简介基于文本的3D场景编辑因其方便和易用性而受到了广泛关注。然而,由于文本描述的固有限制,现有方法仍然缺乏对编辑结果的指定外观和位置的准确控制。为此,我们提出了一种3D场景编辑框架TIPEditor,它接受文本和图像提示以及3D边界框来指定编辑区域。通过图像提示,用户可以方便地补充文本描述,指定目标内容的详细外观/风格,从而实现外观的精确控制。具体而言,TIP-Editor采用逐步的2D个性化策略来更好地学习现有场景和参考图像的表示,其中提出了一个定位损失来鼓励按照边界框指定的正确物体放置。此外,TIPEditor利用明确和灵活的3D高斯喷洒作为3D表示,以便在保持背景不变的同时进行局部编辑。广泛的实验表明,TIP-Editor可以在指定的边界框区域内准确地按照文本和图像提示进行编辑,从而在编辑质量和对提示的对齐方面始终优于基线方法,无论是定性还是定量分析。
- 图表
- 解决问题本文旨在提出一种基于文本和图像提示的三维场景编辑框架,以实现对编辑结果的准确控制。
- 关键思路TIPEditor框架采用了一种分步的2D个性化策略和显式灵活的3D高斯喷洒表示,以实现对编辑区域的局部编辑。
- 其它亮点TIPEditor框架可以接受文本和图像提示以及三维边界框来指定编辑区域,从而实现对目标内容的准确控制。实验结果表明,TIPEditor在编辑质量和与提示的对齐方面始终优于基线。
- 在最近的研究中,也有一些关于基于文本的三维场景编辑的研究,如《Text2Scene: Generating 3D Scenes from Descriptions》和《3D-GAN: Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling》。
沙发等你来抢
去评论
评论
沙发等你来抢