Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

向作者提问

NEW

简介

利用二维扩散模型的先验知识进行三维编辑，已成为一种颇具前景的新范式。然而，在编辑结果中保持多视角一致性仍面临巨大挑战；而三维一致编辑所需的配对数据极度匮乏，使得监督微调（SFT）——即编辑任务中最有效的训练策略——难以实施。本文发现：尽管生成具备多视角一致性的三维内容极为困难，但验证三维一致性却是可行的，这自然为强化学习（RL）提供了适用场景，使其成为解决该问题的可行方案。受此启发，我们提出了 **RL3DEdit**——一种基于强化学习优化的单次前向推理框架，其核心创新在于引入源自三维基础模型 VGGT 的新型奖励信号。具体而言，我们充分利用 VGGT 从海量真实世界数据中学习到的强健先验，将编辑所得图像输入该模型，并以其输出的置信度图与位姿估计误差作为奖励信号，从而通过强化学习，将二维编辑先验精准地锚定在三维一致的流形上。大量实验表明，RL3DEdit 能够稳定实现多视角一致性，在编辑质量上显著优于当前最先进方法，同时兼具高效率。为推动三维编辑领域的进一步发展，我们将开源全部代码与模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在缺乏3D-consistent编辑配对数据（即无ground-truth多视图一致编辑结果）的前提下，实现高质量、多视图一致的3D感知图像编辑。这是一个新兴且极具挑战性的问题——传统2D扩散模型编辑易导致几何/外观不一致，而监督微调（SFT）因数据稀缺不可行。
关键思路

摒弃依赖稀缺标注数据的监督范式，转而将3D一致性建模为可验证但难生成的特性，首次将强化学习（RL）系统性引入3D编辑任务：以单次前向编辑（single-pass）为策略动作，利用预训练3D基础模型VGGT（具备强泛化先验）输出的跨视角置信度图与姿态估计误差作为稀疏、可微近似奖励信号，在无需任何3D编辑真值标签的情况下，通过RL优化将2D编辑过程‘锚定’到3D一致流形上。
其它亮点

提出首个端到端RL驱动的3D编辑框架RL3DEdit；奖励设计创新——首次将VGGT的置信度热图差异与相对姿态误差联合建模为多视图一致性奖励；实验在多个复杂编辑场景（如物体替换、属性重着色、结构变形）下验证了显著优于ControlNet+MVDiffusion等SOTA方法的多视图几何与语义一致性；全部代码与模型将开源；关键启示：'可验证性 > 可生成性'为小样本/零样本3D生成任务提供了新范式。
相关研究

1. 'DreamFusion: Text-to-3D using 2D Diffusion' (ICLR 2023); 2. 'MVDiffusion: Multi-view Consistent Text-to-3D Generation' (CVPR 2024); 3. 'Zero-1-to-3: Zero-shot One Image to 3D Object' (NeurIPS 2023); 4. 'ControlNet for 3D-Aware Editing' (SIGGRAPH Asia 2023); 5. 'VGGT: A Vision-Language-Guided Geometry Transformer for 3D Understanding' (ECCV 2024, foundation model cited in paper)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问