最近在文本-图像合成方面的突破是由在数十亿图像-文本对上训练的扩散模型推动的。将这种方法应用于三维合成需要大规模的有标签的三维资产数据集和高效的三维数据去噪架构,而这两者目前都不存在。
在这项名为DreamFusion的工作中,Google Research和UC Berkeley的研究员,通过使用预先训练好的二维文本到图像的扩散模型来执行文本到三维的合成,从而规避了这些限制。他们引入了一种基于概率密度蒸馏的损失,使二维扩散模型作为优化参数化图像生成器的先验。在一个类似DeepDream的程序中使用这种损失,我们通过梯度下降法优化一个随机初始化的三维模型(一个神经辐射场,或NeRF),使其从随机角度的二维渲染达到低损失。由此产生的给定文本的三维模型可以从任何角度观看,通过任意的照明重新点亮,或者合成到任何三维环境中。我们的方法不需要3D训练数据,也不需要修改图像扩散模型,这证明了预先训练的图像扩散模型作为先验因素的有效性。
其主要工作原理是:给定一个标题,DreamFusion使用一个称为Imagen的文本到图像生成模型来优化一个三维场景。我们提出了得分蒸馏取样(SDS),这是一种通过优化损失函数从扩散模型中生成样本的方法。SDS允许我们在一个任意的参数空间(如三维空间)中优化样本,只要我们能够有区别地映射到图像。我们使用类似于神经辐射场(NeRFs)的三维场景参数化来定义这种可分化的映射。SDS单独产生合理的场景外观,但DreamFusion增加了额外的正则器和优化策略,以改善几何形状。由此产生的训练有素的NeRFs是连贯的,具有高质量的法线、表面几何和深度,并可通过朗伯尔阴影模型进行再照明。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢