Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

2024年03月20日
  • 简介
    本文介绍了一种三面体自编码器,将3D模型编码成一个紧凑的三面体潜在空间,以有效地压缩3D几何和纹理信息,从而实现从单个图像高效生成高质量3D资产。在自编码器框架内,我们引入了一个3D感知的交叉注意机制,利用低分辨率潜在表示从高分辨率3D特征体积中查询特征,从而增强了潜在空间的表示能力。随后,我们在这个精细的潜在空间上训练了一个扩散模型。与仅依靠图像嵌入进行3D生成不同,我们提出的方法主张同时利用图像嵌入和形状嵌入作为条件。具体来说,形状嵌入是通过在图像嵌入的条件下对扩散先验模型进行估计得到的。通过全面的实验,我们证明了我们的方法优于现有的最先进算法,不仅性能更好,而且需要更少的训练数据和时间。我们的方法在单个A100 GPU上仅需7秒即可生成高质量的3D资产。
  • 图表
  • 解决问题
    本文试图从单张图像中高效地生成高质量的3D模型,提出了一种三面体自编码器的方法,通过3D感知的交叉注意机制和扩散模型来提高潜空间的表征能力。
  • 关键思路
    本文提出了一种结合图像嵌入和形状嵌入的条件生成方法,通过三面体自编码器将3D几何和纹理信息压缩到一个紧凑的潜空间中,并利用3D感知的交叉注意机制增强了潜空间的表征能力。
  • 其它亮点
    本文提出的方法在生成高质量3D模型方面表现出色,同时需要的训练数据和时间更少,只需使用一个A100 GPU就能在7秒内生成高质量的3D模型。实验中使用了多个数据集并开源了代码。
  • 相关研究
    最近的相关研究包括:《Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation》、《Generative Multi-View Human Body Mesh Estimation》、《Learning to Infer Implicit Surfaces without 3D Supervision》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论