Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

2024年03月15日
  • 简介
    通过不断增加预训练的二维扩散模型的可用性,通过利用得分蒸馏采样(SDS),图像到三维生成正在取得显著进展。大多数现有方法将从二维扩散模型中提取新视图,通常将参考图像作为条件,并在参考视图上应用硬L2图像监督。然而,过于依赖图像容易破坏二维扩散模型的归纳知识,导致三维生成经常变得平坦或失真。在本研究中,我们从新的角度重新审视图像到三维,并提出了Isotropic3D,这是一个仅需要图像CLIP嵌入作为输入的图像到三维生成流程。Isotropic3D允许优化在方位角方面是各向同性的,仅仅依靠SDS损失。我们框架的核心在于两阶段扩散模型微调。首先,我们通过用图像编码器替换其文本编码器来微调文本到三维扩散模型,从而该模型初步获得了图像到图像的能力。其次,我们使用我们的显式多视图注意(EMA)进行微调,将嘈杂的多视图图像与无噪声的参考图像作为显式条件组合。CLIP嵌入在整个过程中被发送到扩散模型,而参考图像在微调后被丢弃。因此,仅需一个图像CLIP嵌入,Isotropic3D就能够生成多视图相互一致的图像,以及一个具有更对称整洁的内容、比例协调的几何形状、丰富的彩色纹理和较少失真的三维模型,与现有的图像到三维方法相比,仍然在很大程度上保持与参考图像的相似性。项目页面可在https://isotropic3d.github.io/上找到。代码和模型可在https://github.com/pkunliu/Isotropic3D上找到。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文旨在提出一种新的图像到三维模型生成方法,通过只利用图像的CLIP嵌入来生成更对称、更整洁、几何更匀称、纹理更丰富、失真更少的三维模型。
  • 关键思路
    关键思路:论文提出了Isotropic3D,一种图像到三维模型生成方法,该方法只使用图像的CLIP嵌入作为输入,并使用Score Distillation Sampling(SDS)进行优化,使得生成的三维模型在方位角上具有各向同性。Isotropic3D的核心是两阶段扩散模型微调,首先使用图像编码器微调文本到三维扩散模型,然后使用Explicit Multi-view Attention(EMA)微调多视角图像和无噪声的参考图像。
  • 其它亮点
    亮点:Isotropic3D使用CLIP嵌入作为输入,生成对称、整洁、匀称、纹理丰富、失真少的三维模型。论文还开源了代码和模型,并提供了项目页面。实验结果表明,相比现有的图像到三维模型方法,Isotropic3D生成的三维模型更加优秀。
  • 相关研究
    相关研究:最近的相关研究包括NeRF, PixelNeRF和Implicit3D等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问