3DEgo: 3D Editing on the Go! - 智源社区论文

向作者提问

NEW

简介

我们介绍了3DEgo来解决一个新问题，即通过文本提示直接合成逼真的三维场景。传统方法通过一个三阶段的过程构建文本条件的三维场景，其中包括使用结构从运动（SfM）库如COLMAP进行姿态估计，使用未编辑的图像初始化三维模型，并通过编辑图像迭代更新数据集以实现具有文本保真度的三维场景。我们的框架通过克服对COLMAP的依赖和消除模型初始化成本，将传统的多阶段三维编辑过程简化为单阶段工作流程。我们应用扩散模型在创建三维场景之前编辑视频帧，通过结合我们设计的噪声混合器模块来增强多视角编辑的一致性，这一步不需要对T2I扩散模型进行额外的训练或微调。3DEgo利用三维高斯喷洒从多视角一致的编辑帧中创建三维场景，利用固有的时间连续性和明确的点云数据。3DEgo在各种视频来源上表现出了卓越的编辑精度、速度和适应性，经过对包括我们自己准备的GS25数据集在内的六个数据集的广泛评估进行了验证。项目页面：https://3dego.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决通过文本提示直接合成逼真的3D场景的问题。相较于传统方法，该方法通过单一阶段的工作流程，消除了对COLMAP的依赖和模型初始化的成本，提高了编辑精度和速度。
关键思路

该论文的解决方案是将传统的三阶段3D编辑过程简化为单一阶段的工作流程，并利用扩散模型和噪声混合器模块进行视频帧编辑，最终使用3D高斯喷洒技术创建3D场景。
其它亮点

该论文通过多个数据集的广泛评估验证了该方法的编辑精度、速度和适应性，并提供了开源代码。该方法的亮点在于消除了传统方法中的多个阶段，提高了编辑效率和精度。此外，使用了扩散模型和噪声混合器模块进行视频帧编辑，提高了多视角编辑的一致性。
相关研究

在这个领域中，最近的相关研究包括：1.《Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes》；2.《Text2Scene: Generating Compositional Scenes from Textual Descriptions》；3.《SynSin: End-to-end View Synthesis from a Single Image》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问