BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation

2024年01月30日
  • 简介
    我们提出了BlockFusion,这是一种基于扩散的模型,可以将3D场景生成为单元块,并无缝地整合新块以扩展场景。BlockFusion使用从完整3D场景网格中随机裁剪的3D块数据集进行训练。通过对每个块进行拟合,所有训练块都被转换为混合神经场:其中包含几何特征的三平面,后跟用于解码符号距离值的多层感知器(MLP)。变分自编码器用于将三平面压缩到潜在的三平面空间,对其中的去噪扩散过程进行处理。对潜在表示应用扩散允许高质量和多样化的3D场景生成。在生成过程中扩展场景,只需要将空块附加到与当前场景重叠,并外推现有的潜在三平面以填充新块。外推是通过在去噪迭代期间使用重叠三平面的特征样本来调节生成过程来完成的。潜在三平面外推产生了语义和几何上有意义的过渡,与现有场景和谐地融合。使用2D布局调节机制来控制场景元素的放置和排列。实验结果表明,BlockFusion能够在室内和室外场景中生成多样化、几何一致且无界的大型3D场景,并具有前所未有的高质量形状。
  • 图表
  • 解决问题
    这篇论文旨在提出一种基于扩散的模型BlockFusion,用于生成3D场景,并且可以无缝地将新的块添加到场景中。这个模型的目标是产生高质量、多样化、几何一致的3D场景。
  • 关键思路
    BlockFusion模型通过训练随机裁剪自完整3D场景网格的3D块数据集,将所有训练块转换为混合神经场。该模型使用三平面包含几何特征,随后使用多层感知机(MLP)来解码有符号距离值。使用变分自编码器将三平面压缩到潜在的三平面空间,然后在潜在空间上执行去噪扩散过程。扩散应用于潜在表示,允许高质量和多样化的3D场景生成。扩展场景的过程只需要将空块附加到与当前场景重叠并将现有的潜在三平面外推以填充新块即可。外推是通过在去噪迭代期间使用重叠三平面的特征样本来调节生成过程实现的。潜在三平面外推产生了语义和几何上有意义的过渡,与现有场景融合得和谐。
  • 其它亮点
    该模型可以生成具有几何一致性和无限扩展性的高质量3D场景。实验表明,BlockFusion能够产生具有前所未有的高质量形状的室内外场景。该模型使用2D布局调节机制来控制场景元素的放置和排列。该论文还提出了一种新的外推方法,可以产生高质量和多样化的3D场景。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,Neural 3D Mesh Renderer (NMR)和DeepSDF模型都可以生成高质量的3D形状。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论