3DEgo: 3D Editing on the Go!

2024年07月14日
  • 简介
    我们介绍了3DEgo来解决一个新问题,即通过文本提示直接合成逼真的三维场景。传统方法通过一个三阶段的过程构建文本条件的三维场景,其中包括使用结构从运动(SfM)库如COLMAP进行姿态估计,使用未编辑的图像初始化三维模型,并通过编辑图像迭代更新数据集以实现具有文本保真度的三维场景。我们的框架通过克服对COLMAP的依赖和消除模型初始化成本,将传统的多阶段三维编辑过程简化为单阶段工作流程。我们应用扩散模型在创建三维场景之前编辑视频帧,通过结合我们设计的噪声混合器模块来增强多视角编辑的一致性,这一步不需要对T2I扩散模型进行额外的训练或微调。3DEgo利用三维高斯喷洒从多视角一致的编辑帧中创建三维场景,利用固有的时间连续性和明确的点云数据。3DEgo在各种视频来源上表现出了卓越的编辑精度、速度和适应性,经过对包括我们自己准备的GS25数据集在内的六个数据集的广泛评估进行了验证。项目页面:https://3dego.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决通过文本提示直接合成逼真的3D场景的问题。相较于传统方法,该方法通过单一阶段的工作流程,消除了对COLMAP的依赖和模型初始化的成本,提高了编辑精度和速度。
  • 关键思路
    该论文的解决方案是将传统的三阶段3D编辑过程简化为单一阶段的工作流程,并利用扩散模型和噪声混合器模块进行视频帧编辑,最终使用3D高斯喷洒技术创建3D场景。
  • 其它亮点
    该论文通过多个数据集的广泛评估验证了该方法的编辑精度、速度和适应性,并提供了开源代码。该方法的亮点在于消除了传统方法中的多个阶段,提高了编辑效率和精度。此外,使用了扩散模型和噪声混合器模块进行视频帧编辑,提高了多视角编辑的一致性。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes》;2.《Text2Scene: Generating Compositional Scenes from Textual Descriptions》;3.《SynSin: End-to-end View Synthesis from a Single Image》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问