MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

简介

本文介绍了一种名为MIDI的新范式，可以从单张图像生成组合式的3D场景。与现有的依赖于重建或检索技术的方法，以及最近采用多阶段逐对象生成的方法不同，MIDI将预训练的图像到3D对象生成模型扩展到了多实例扩散模型，从而能够同时生成多个具有准确空间关系和高泛化能力的3D实例。在核心部分，MIDI引入了一种新颖的多实例注意力机制，能够在生成过程中直接有效地捕捉对象之间的相互作用和空间一致性，而无需复杂的多步骤过程。该方法利用部分对象图像和全局场景上下文作为输入，在3D生成过程中直接建模对象完成。在训练过程中，我们使用有限的场景级数据有效监督3D实例之间的相互作用，同时结合单个对象数据进行正则化，从而保持预训练的泛化能力。MIDI在图像到场景生成方面展示了最先进的性能，这一点通过在合成数据、真实世界场景数据以及由文本到图像扩散模型生成的风格化场景图像上的评估得到了验证。
图表
解决问题

该论文旨在解决从单张图像生成具有多个3D对象的场景的问题。现有方法通常依赖于重建或检索技术，或采用多阶段的对象生成方法，而这些方法在处理复杂场景时存在局限性。
关键思路

MIDI通过扩展预训练的图像到3D对象生成模型，引入了一种多实例扩散模型，能够同时生成多个3D实例，并准确捕捉它们之间的空间关系。其核心创新在于多实例注意力机制，能够直接在生成过程中建模对象间的交互和空间一致性，而无需复杂的多步骤过程。
其它亮点

论文通过合成数据、真实世界场景数据和由文本到图像扩散模型生成的风格化场景图像进行了广泛的实验验证。此外，MIDI利用部分对象图像和全局场景上下文作为输入，直接在3D生成过程中建模对象完成。该方法在训练过程中有效地监督了3D实例之间的交互，并使用单个对象数据进行正则化，以保持预训练模型的泛化能力。代码已开源，为未来的研究提供了便利。
相关研究

近期相关研究包括：1) NeRF (Neural Radiance Fields) 用于从多视角图像生成高分辨率的3D场景；2) DIB-R (Differentiable Implicit Bridge for Rendering) 结合显式和隐式表示生成3D对象；3) GRAF (Generative Radiance Fields) 通过生成辐射场来实现3D对象的生成；4) PixelNeRF 通过像素级别的NeRF实现单视角3D重建。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论