TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing

2024年05月23日
  • 简介
    在计算机视觉和图形学的广泛应用中,场景内对象的编辑是必不可少的关键功能。随着3D高斯喷溅(3DGS)成为场景表示的前沿技术,有效修改3D高斯场景变得越来越重要。这个过程需要准确地检索目标对象,然后根据指示进行修改。虽然现有的技术在某些方面已经有所突破,但主要是将稀疏语义嵌入高斯函数以进行检索,并依赖于迭代数据集更新范式进行编辑,从而导致过度平滑或不一致的问题。因此,本文提出了一种系统化的方法,即TIGER,用于一致的文本指示下的3D高斯检索和编辑。与基于自然语言处理的3D高斯自然语言理解方法相比,我们采用自底向上的语言聚合策略生成更密集的语言嵌入3D高斯场景,支持开放式词汇检索。为了克服编辑中的过度平滑和不一致问题,我们提出了一种一致性得分蒸馏(CSD)方法,将2D图像编辑扩散模型和多视角扩散模型聚合起来进行得分蒸馏,从而产生更细节更多视角一致的编辑。在各种实验中,我们证明了我们的TIGER能够比之前的工作实现更一致和更逼真的编辑。
  • 图表
  • 解决问题
    论文旨在解决在计算机视觉和图形学中广泛应用的场景编辑问题,特别是对于3D高斯场景的修改。现有的技术主要存在稀疏语义嵌入和迭代数据集更新范式等问题。
  • 关键思路
    本文提出了一种名为TIGER的系统化方法,采用自下而上的语言聚合策略生成更密集的语言嵌入3D高斯场景,以支持开放词汇检索。同时,引入一种相干性分数蒸馏方法,将2D图像编辑扩散模型和多视角扩散模型聚合起来,实现了多视角一致性编辑和更精细的细节。
  • 其它亮点
    实验表明,TIGER相比现有技术能够更加一致和真实地编辑3D高斯场景。论文使用了多个数据集进行实验,并开源了代码。
  • 相关研究
    最近的相关研究包括利用深度学习进行场景编辑的方法,如《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》和《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论