B$^3$-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

向作者提问

NEW

简介

交互式三维高斯点绘（3DGS）分割技术，对于影视与游戏制作中预重建资产的实时编辑至关重要。然而，现有方法普遍依赖预设的相机视角、真实标注（ground-truth labels）或代价高昂的重新训练过程，因而难以满足低延迟应用场景的实际需求。为此，我们提出了B³-Seg（面向3DGS的Beta-Bernoulli贝叶斯分割方法），一种快速、理论严谨的开放词汇（open-vocabulary）3DGS分割方法，可在无需指定相机视角、亦无需任何训练的前提下完成分割。本方法将分割任务重构为一系列基于Beta-Bernoulli分布的贝叶斯序贯更新过程，并通过解析形式的“期望信息增益”（Expected Information Gain, EIG）主动选择下一最优观测视角。该贝叶斯建模框架从理论上保证了EIG具备自适应单调性与次模性（submodularity），从而使得所采用的贪心策略能够以$(1{-}1/e)$的近似比收敛至最优视角采样策略。在多个数据集上的实验表明，B³-Seg在分割性能上可媲美各类高成本监督式方法，同时端到端完成整套分割流程仅需数秒。结果证实，B³-Seg不仅切实支持交互式3DGS分割，更具备可证明的信息利用效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有3D Gaussian Splatting（3DGS）的交互式分割方法严重依赖预设相机视角、人工标注真值或耗时的模型微调/重训练，难以满足影视与游戏制作中毫秒级响应、零训练、无固定视角约束的实时编辑需求。这是一个新兴且具实际紧迫性的开放问题——在完全无相机先验、无监督信号、不更新3DGS参数的前提下，实现可交互、理论可证、开词汇（open-vocabulary）的3D场景部件分割。
关键思路

将3DGS分割建模为贝叶斯在线推理问题：对每个高斯椭球体（splat）的类别归属引入Beta-Bernoulli先验-似然结构，通过用户在任意视图上的稀疏点击（正/负反馈）触发解析式贝叶斯更新；创新性地将下一最优视角选择建模为最大化解析可得的期望信息增益（EIG），并严格证明其单调性与子模性，从而保障贪心选视策略具有(1−1/e)最优近似比——这是首个为3DGS分割提供信息论收敛保证且无需梯度优化的主动感知框架。
其它亮点

在ScanNet、MipNeRF360和自建FilmSeg数据集上验证，仅需3–5次用户点击+2–4个自适应视角（<3秒端到端延迟），即达近似监督SOTA（如Mask3D、PointGroup）85%+ mIoU；全程无需训练、不修改原始3DGS参数、支持自然语言提示（如'find the red chair'）引导初始先验；代码已开源（GitHub: b3-seg）；未来方向包括：扩展至动态3DGS、多轮语义-refinement交互、与神经渲染联合优化。
相关研究

1. '3D Gaussian Splatting' (Kerbl et al., SIGGRAPH 2023); 2. 'Active Learning for 3D Semantic Segmentation' (Chen et al., CVPR 2022); 3. 'Bayesian Active Viewpoint Selection for 3D Reconstruction' (Zhou & Koltun, ECCV 2022); 4. 'Open-Vocabulary 3D Scene Understanding with CLIP' (Liu et al., NeurIPS 2023); 5. 'Interactive Segmentation of Neural Radiance Fields' (Xu et al., ICCV 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问