Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors

向作者提问

NEW

简介

我们提出了一种新颖的图像编辑技术，使得可以对单个图像进行3D操作，例如对象旋转和平移。现有的3D感知图像编辑方法通常依赖于用于训练专门模型的合成多视图数据集，因此限制了它们在具有更多样化布局和风格的开放域图像上的有效性。相反，我们的方法直接利用在广泛的文本-图像对上训练的强大的图像扩散模型，因此保留了其出色的泛化能力。这一目标通过开发一种迭代的新视图合成和几何对齐算法来实现。该算法利用扩散模型具有双重目的：它们通过预测所选对象的新视图使用估计的深度图提供外观先验，并通过校正采样视图中的3D形状的错位来充当几何批评家。我们的方法可以生成具有大视角变换和高外观和形状一致性的高质量3D感知图像编辑，推动了单图像3D感知编辑的可能性边界。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的图像编辑技术，使单张图像能够进行3D操作，如物体旋转和平移。该方法试图解决现有3D感知图像编辑方法在训练时过度依赖合成多视图数据集，从而限制了它们在开放领域图像上的有效性的问题。
关键思路

该论文的关键思路是利用强大的图像扩散模型，通过开发一种迭代的新视图合成和几何对齐算法来实现目标。该算法利用扩散模型完成双重目的：通过预测估计的深度图来预测所选对象的新视图，从而提供外观先验；通过纠正采样视图中的3D形状的错位来充当几何评论家。
其它亮点

该方法能够生成高质量的3D感知图像编辑，具有大视角变换和高外观和形状一致性，并推动了单张图像3D感知编辑的可能性。该论文的实验设计合理，使用了广泛的文本-图像数据集进行扩散模型训练，同时展示了该方法在多个数据集和任务上的有效性。该论文的开源代码也可供使用。
相关研究

在这个领域中，最近的相关研究包括：《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《PixelNeRF: Neural Radiance Fields from One or Few Images Using Pixel-Wise Experts》、《Single-Image Tomography: 3D Volumes from 2D Cranial X-Rays》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问