Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

2026年03月03日
  • 简介
    利用二维扩散模型的先验知识进行三维编辑,已成为一种颇具前景的新范式。然而,在编辑结果中保持多视角一致性仍面临巨大挑战;而三维一致编辑所需的配对数据极度匮乏,使得监督微调(SFT)——即编辑任务中最有效的训练策略——难以实施。本文发现:尽管生成具备多视角一致性的三维内容极为困难,但验证三维一致性却是可行的,这自然为强化学习(RL)提供了适用场景,使其成为解决该问题的可行方案。受此启发,我们提出了 **RL3DEdit**——一种基于强化学习优化的单次前向推理框架,其核心创新在于引入源自三维基础模型 VGGT 的新型奖励信号。具体而言,我们充分利用 VGGT 从海量真实世界数据中学习到的强健先验,将编辑所得图像输入该模型,并以其输出的置信度图与位姿估计误差作为奖励信号,从而通过强化学习,将二维编辑先验精准地锚定在三维一致的流形上。大量实验表明,RL3DEdit 能够稳定实现多视角一致性,在编辑质量上显著优于当前最先进方法,同时兼具高效率。为推动三维编辑领域的进一步发展,我们将开源全部代码与模型。
  • 作者讲解
  • 图表
  • 解决问题
    如何在缺乏3D-consistent编辑配对数据(即无ground-truth多视图一致编辑结果)的前提下,实现高质量、多视图一致的3D感知图像编辑。这是一个新兴且极具挑战性的问题——传统2D扩散模型编辑易导致几何/外观不一致,而监督微调(SFT)因数据稀缺不可行。
  • 关键思路
    摒弃依赖稀缺标注数据的监督范式,转而将3D一致性建模为可验证但难生成的特性,首次将强化学习(RL)系统性引入3D编辑任务:以单次前向编辑(single-pass)为策略动作,利用预训练3D基础模型VGGT(具备强泛化先验)输出的跨视角置信度图与姿态估计误差作为稀疏、可微近似奖励信号,在无需任何3D编辑真值标签的情况下,通过RL优化将2D编辑过程‘锚定’到3D一致流形上。
  • 其它亮点
    提出首个端到端RL驱动的3D编辑框架RL3DEdit;奖励设计创新——首次将VGGT的置信度热图差异与相对姿态误差联合建模为多视图一致性奖励;实验在多个复杂编辑场景(如物体替换、属性重着色、结构变形)下验证了显著优于ControlNet+MVDiffusion等SOTA方法的多视图几何与语义一致性;全部代码与模型将开源;关键启示:'可验证性 > 可生成性'为小样本/零样本3D生成任务提供了新范式。
  • 相关研究
    1. 'DreamFusion: Text-to-3D using 2D Diffusion' (ICLR 2023); 2. 'MVDiffusion: Multi-view Consistent Text-to-3D Generation' (CVPR 2024); 3. 'Zero-1-to-3: Zero-shot One Image to 3D Object' (NeurIPS 2023); 4. 'ControlNet for 3D-Aware Editing' (SIGGRAPH Asia 2023); 5. 'VGGT: A Vision-Language-Guided Geometry Transformer for 3D Understanding' (ECCV 2024, foundation model cited in paper)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问